# 機械学習スクラッチ入門


NumPy などに備わっている基本的なライブラリを組み合わせることで、

scikit-learn などの応用的なライブラリに実装されている機能と等価なクラス・関数を自作することができます。

**これをスクラッチと呼びます。**


スクラッチを通して、scikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。

コーディングのスキル向上も兼ねていますが、それは主な目的ではありません。


以下のような効果を狙っています。


**1. 新たな手法に出会った時に理論・数式を理解しやすくする**


**2. ライブラリを使う上での曖昧さを減らす**


**3. 既存の実装を読みやすくする**


今回はまず、機械学習のプログラムを完全にはスクラッチせず、scikit-learn を用いて実装します。

そして、次回から段階的に scikit-learn を用いた実装をスクラッチに移行していきます。

In [131]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

## 【問題1】train_test_split のスクラッチ

まずは、scikit-learnの train_test_split をスクラッチしてみます。

以下の雛形をベースに関数を実装してください。


sklearn.model_selection.train_test_split - scikit-learn stable version documentation


なお、作成した関数がscikit-learnの train_test_split と同じ動作をするか必ず確認をしましょう。

In [2]:
import random

def scratch_train_test_split(x, y, train_size=0.8, seed=32):
    """検証データを分割する。
    Parameters
    ----------
    x : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    x_train : ndarray
      訓練データ (n_samples, n_features)
    x_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    """
# １ndarrayを中身ランダムに分割
# ２分割の割合は任意の数字を指定できるようにする
    random.seed(0)
    np.random.seed(seed=32)
    np.random.shuffle(x) #ランダム
    np.random.shuffle(y)

    x_train, x_test = np.split(x, [int(len(x) * train_size)])
    y_train, y_test = np.split(y, [int(len(y) * train_size)])

    return x_train, x_test, y_train, y_test

# 適当な配列を用意

x = np.arange(250).reshape(50, 5)#説明変数は複数列
y = np.arange(50)#目的変数は１列

x_train, x_test, y_train, y_test = scratch_train_test_split(x, y, train_size=0.8,seed=32)

# 分割の実行結果
print(f'分割結果 配列 \nx_train :{x_train[0:5]}')
print(f'x_test  :{x_test[0:5]}')
print(f'y_train :{y_train[0:5]}')
print(f'y_test  :{y_test[0:5]}')

print(f'分割結果 length \nx_train :{len(x_train)}')
print(f'x_test  :{len(x_test)}')
print(f'y_train :{len(y_train)}')
print(f'y_test  :{len(y_test)}')

print(f'分割結果 type \nx_train :{type(x_train)}')
print(f'x_test  :{type(x_test)}')
print(f'y_train :{type(y_train)}')
print(f'y_test  :{type(y_test)}')

print(f'分割結果 shape \nx_train :{x_train.shape}')
print(f'x_test  :{x_test.shape}')
print(f'y_train :{y_train.shape}')
print(f'y_test  :{y_test.shape}')



分割結果 配列 
x_train :[[245 246 247 248 249]
 [ 80  81  82  83  84]
 [205 206 207 208 209]
 [175 176 177 178 179]
 [220 221 222 223 224]]
x_test  :[[ 45  46  47  48  49]
 [185 186 187 188 189]
 [ 15  16  17  18  19]
 [125 126 127 128 129]
 [ 35  36  37  38  39]]
y_train :[46  5  3 10 33]
y_test  :[20 28  4 41 34]
分割結果 length 
x_train :40
x_test  :10
y_train :40
y_test  :10
分割結果 type 
x_train :<class 'numpy.ndarray'>
x_test  :<class 'numpy.ndarray'>
y_train :<class 'numpy.ndarray'>
y_test  :<class 'numpy.ndarray'>
分割結果 shape 
x_train :(40, 5)
x_test  :(10, 5)
y_train :(40,)
y_test  :(10,)


In [152]:
# from sklearn.model_selection import train_test_split
# # 本物
# a_train, a_test, b_train, b_test = train_test_split(x, y, train_size=0.8)
    
# print(len(a_train))
# print(len(a_test))
# print(len(b_train))
# print(len(b_test))

# print('-------------')
# print(a_train.shape)
# print(a_test.shape)
# print(b_train.shape)
# print(b_test.shape)

In [4]:
print(f'分割結果 配列 \nx_train :{x_train[:3]}')
print(f'x_test  :{x_test}')
print(f'y_train :{y_train[:3]}')
print(f'y_test  :{y_test[:3]}')

分割結果 配列 
x_train :[[245 246 247 248 249]
 [ 80  81  82  83  84]
 [205 206 207 208 209]]
x_test  :[[ 45  46  47  48  49]
 [185 186 187 188 189]
 [ 15  16  17  18  19]
 [125 126 127 128 129]
 [ 35  36  37  38  39]
 [ 95  96  97  98  99]
 [120 121 122 123 124]
 [ 25  26  27  28  29]
 [215 216 217 218 219]
 [115 116 117 118 119]]
y_train :[46  5  3]
y_test  :[20 28  4]


### scikit-learnを用いて機械学習を行うコードの実装


scikit-learnを使ったコードを実装しベースラインモデルを作成していきます。



検証データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。


分類問題

分類は3種類の手法をscikit-learnを使って実装します。


**1. ロジスティック回帰**

**2. SVM**

**3. 決定木**

scikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。

ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。

**引数でloss=”log”とすることでロジスティック回帰の計算になります。**


scikit-learn にはロジスティック回帰に使える分類器として LogisticRegression クラスと SGDClassifier クラスが用意されています。

ここでは勾配降下法を用いて計算する SGDClassifier クラスを用います。

引数で loss="log" を指定することでロジスティック回帰の計算ができます。


3種類のデータセットを用いて動作を確認します。



**1つ目は事前学習期間同様のirisデータセットです。**


sklearn.datasets.load_iris - scikit-learn stable version documentation


**2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類すべて使います。**


#### virgicolorとvirginica

**残り2つは特徴量が2つのデータセットを人工的に用意します。**

以下のコードで説明変数X,目的変数yが作成可能です。

**「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。**


In [36]:
# 1.アイリスデータセット準備
from sklearn.datasets import load_iris
iris = load_iris()

x_iris_df = pd.DataFrame(iris.data, columns=["sepal_length", "sepal_width", "petal_length", "petal_width"])
t_iris_df = pd.DataFrame(iris.target, columns=["TARGET"])
iris_df = pd.concat([x_iris_df,t_iris_df],axis=1)
iris_df = iris_df.loc[(iris_df["TARGET"] == 1 )|(iris_df["TARGET"] == 2)].reset_index(drop=True) 

# 完成 ndarray（ターゲットを１と２のみ 100 rows × 5 columns）
iris_x = iris_df[["sepal_length", "sepal_width", "petal_length", "petal_width"]].values
iris_y = iris_df["TARGET"].values

print(iris_x.shape)
print(iris_x.shape)

# 利用データ
xi_train, xi_test, yi_train, yi_test = scratch_train_test_split(iris_x, iris_y, train_size=0.8)
# xi_train, xi_test, yi_train, yi_test = train_test_split(iris_x, iris_y, train_size=0.8) #本物
print(xi_train.shape)
print(xi_test.shape)
print(yi_train.shape)
print(yi_test.shape)

print(type(xi_train))
print(type(xi_test))
print(type(yi_train))
print(type(yi_test))

(100, 4)
(100, 4)
(80, 4)
(20, 4)
(80,)
(20,)
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [15]:
# 2.シンプルデータセット1作成コード
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, n_samples // 2)
f1 = np.random.multivariate_normal(f1, cov, n_samples // 2)
# 完成
X = np.concatenate([f0, f1])
Y = np.concatenate([
    np.full(n_samples // 2, 1),
    np.full(n_samples // 2, -1)
])
# targetは１か−１
X_train, X_test, Y_train, Y_test = scratch_train_test_split(X, Y, train_size=0.8)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(400, 2)
(100, 2)
(400,)
(100,)


In [7]:
# 3.シンプルデータセット2作成コード
XX = np.array([
    [-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
    [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
    [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
    [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
    [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
    [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
    [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
    [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
    [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
    [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
    [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
    [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
    [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
    [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
    [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
    [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
    [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
    [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
    [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
    [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ],
])
YY = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
# 利用データ
XX_train, XX_test, YY_train, YY_test = scratch_train_test_split(XX, YY, train_size=0.8)
# print(XX_train, XX_test, YY_train, YY_test)

## 【問題2】 分類問題を解くコードの作成


**上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。**



In [153]:
# 
# 1. ロジスティック回帰
# 
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(max_iter=1000, tol=1e-3 ,loss="log", random_state=42)

# for文で３つの学習を繰り返す
# 繰り返し処理→①②.fitの中身を訓練データで入れ替える
# 各データをリストに格納、for文で結果、学習結果をリストに格納

# このデータを３回分の分類器で回す
base_data = []
base_data.append((xi_train, xi_test, yi_train, yi_test,"アヤメ"))
base_data.append((X_train, X_test, Y_train, Y_test,"シンンプルデータ1"))
base_data.append((XX_train, XX_test, YY_train, YY_test,"シンンプルデータ2"))

fit_data = []
sgd_predict = []
sgd_score = []
sgd_train_score_0 = []

for model_train, model_test, t_train, t_test, name in base_data:
    # 学習 fit
    fit_answer = sgd_clf.fit(model_train, t_train)
    fit_data.append(name)
    fit_data.append(fit_answer)
    # 推定 predict
    predict = sgd_clf.predict(model_test)
    sgd_predict.append(name)
    sgd_predict.append(predict)
    # 結果 score
    score = sgd_clf.score(model_test, t_test)
    sgd_score.append(name)
    sgd_score.append(score)
    # 学習用結果
    sgd_train_score01 = sgd_clf.score(model_train, t_train)
    sgd_train_score_0.append(name)
    sgd_train_score_0.append(sgd_train_score01)

print('1. ロジスティック回帰')
print(f'fitのデータ: \n{fit_data}')
print(f'predict : \n{sgd_predict}')   
print(f'score   : \n{sgd_score}')   
print(f'train-score : \n{sgd_train_score_0}')
print('結果: アヤメは学習用よりテスト用の方が判定結果が良い。')

1. ロジスティック回帰
fitのデータ: 
['アヤメ', SGDClassifier(loss='log', random_state=42), 'シンンプルデータ1', SGDClassifier(loss='log', random_state=42), 'シンンプルデータ2', SGDClassifier(loss='log', random_state=42)]
predict : 
['アヤメ', array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'シンンプルデータ1', array([-1, -1, -1,  1,  1, -1,  1,  1,  1, -1, -1, -1,  1,  1, -1,  1, -1,
       -1, -1, -1,  1,  1, -1,  1, -1, -1, -1,  1,  1, -1,  1, -1, -1,  1,
       -1,  1,  1,  1, -1, -1,  1, -1, -1, -1,  1, -1, -1,  1, -1, -1,  1,
        1,  1, -1,  1, -1, -1,  1, -1,  1,  1,  1,  1,  1,  1, -1, -1,  1,
        1, -1, -1,  1,  1,  1, -1,  1, -1, -1, -1,  1,  1,  1, -1,  1, -1,
       -1,  1,  1, -1,  1, -1,  1, -1,  1, -1,  1, -1,  1, -1,  1]), 'シンンプルデータ2', array([0, 0, 1, 1, 0, 1, 0, 1])]
score   : 
['アヤメ', 0.75, 'シンンプルデータ1', 0.41, 'シンンプルデータ2', 0.625]
train-score : 
['アヤメ', 0.4375, 'シンンプルデータ1', 0.5375, 'シンンプルデータ2', 0.5]
結果: アヤメは学習用よりテスト用の方が判定結果が良い。


In [154]:
# 
# 2. SVM
# 
from sklearn.pipeline import make_pipeline
from sklearn.svm import SVC
svm_clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
fit_data_1 = []
sgd_predict_1 = []
sgd_score_1 = []
sgd_train_score = []
for model_train, model_test, t_train, t_test, name in base_data:
    # 学習 fit
    fit_answer = svm_clf.fit(model_train, t_train)
    fit_data_1.append(name)
    fit_data_1.append(fit_answer)
    # 推定 predict
    predict = svm_clf.predict(model_test)
    sgd_predict_1.append(name)
    sgd_predict_1.append(predict)
    # 結果 score
    score = svm_clf.score(model_test, t_test)
    sgd_score_1.append(name)
    sgd_score_1.append(score)
    
    svm_train_score = svm_clf.score(model_train, t_train)
    sgd_train_score.append(name)
    sgd_train_score.append(svm_train_score)

print('2. SVM')
print(f'fitのデータ: \n{fit_data_1}')
print(f'predict : \n{sgd_predict_1}')   
print(f'score   : \n{sgd_score_1}')   
print(f'train-score : \n{sgd_train_score}')

2. SVM
fitのデータ: 
['アヤメ', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc', SVC(gamma='auto'))]), 'シンンプルデータ1', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc', SVC(gamma='auto'))]), 'シンンプルデータ2', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc', SVC(gamma='auto'))])]
predict : 
['アヤメ', array([2, 2, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 2, 1, 2, 1, 1, 2, 1, 1]), 'シンンプルデータ1', array([-1, -1, -1,  1,  1,  1, -1,  1, -1, -1, -1,  1,  1,  1,  1,  1,  1,
       -1, -1, -1, -1,  1, -1,  1, -1, -1, -1, -1,  1, -1,  1, -1, -1,  1,
       -1,  1,  1,  1, -1, -1,  1, -1, -1, -1,  1, -1, -1,  1, -1, -1,  1,
        1,  1, -1,  1, -1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,
        1,  1,  1,  1,  1,  1, -1,  1, -1, -1, -1,  1,  1,  1, -1,  1,  1,
        1,  1,  1,  1,  1, -1,  1, -1,  1, -1,  1, -1,  1, -1,  1]), 'シンンプルデータ2', array([0, 0, 0, 0, 0, 0, 0, 1])]
score   : 
['アヤメ', 0.5, 'シンンプルデータ1', 0.46, 'シンンプルデータ2', 0.

In [157]:
# 
# 3. 決定木
# 
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

tree_clf = make_pipeline(StandardScaler(), DecisionTreeClassifier(random_state=0))
fit_data_2 = []
sgd_predict_2 = []
sgd_score_2 = []
sgd_train = []
for model_train, model_test, t_train, t_test, name in base_data:
    # 学習 fit
    fit_answer = tree_clf.fit(model_train, t_train)
    fit_data_2.append(name)
    fit_data_2.append(fit_answer)
    # 推定 predict
    predict = tree_clf.predict(model_test)
    sgd_predict_2.append(name)
    sgd_predict_2.append(predict)
    # 結果 score
    score = tree_clf.score(model_test, t_test)
    sgd_score_2.append(name)
    sgd_score_2.append(score)
    # 学習用の結果
    train_score = tree_clf.score(model_train, t_train)
    sgd_train.append(name)
    sgd_train.append(train_score)

print('3. 決定木')
print(f'fitのデータ: \n{fit_data_2}')
print(f'predict : \n{sgd_predict_2}')   
print(f'score   : \n{sgd_score_2}')   
print(f'train-score : \n{sgd_train}')   
print('結果:過学習が起きている。traindataのみ適合している')

3. 決定木
fitのデータ: 
['アヤメ', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('decisiontreeclassifier',
                 DecisionTreeClassifier(random_state=0))]), 'シンンプルデータ1', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('decisiontreeclassifier',
                 DecisionTreeClassifier(random_state=0))]), 'シンンプルデータ2', Pipeline(steps=[('standardscaler', StandardScaler()),
                ('decisiontreeclassifier',
                 DecisionTreeClassifier(random_state=0))])]
predict : 
['アヤメ', array([2, 1, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1]), 'シンンプルデータ1', array([ 1,  1, -1,  1, -1, -1, -1,  1, -1, -1,  1, -1,  1,  1, -1, -1, -1,
       -1,  1, -1, -1,  1, -1,  1,  1,  1, -1,  1, -1,  1, -1, -1,  1,  1,
       -1,  1,  1,  1, -1,  1, -1, -1, -1, -1,  1,  1, -1, -1,  1,  1,  1,
        1,  1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1,  1, -1, -1,
        1, -1, -1, -1,  1,  1, -1, -1, -1,  1,  1,  1, -1,  1,  1, -1,  1,
  

#### 回帰問題

次に回帰は1種類をscikit-learnを使って実装します。


**線形回帰**

線形回帰は勾配降下法を用いて計算する SGDRegressor クラスを利用してください。


sklearn.linear_model.SGDRegressor - scikit-lear stable version documentation


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


House Prices: Advanced Regression Techniques


**train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。**

## 【問題3】 回帰問題を解くコードの作成

線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [160]:
train_df = pd.read_csv("train.csv")
df = pd.read_csv("train.csv")

t_df = train_df[["SalePrice","GrLivArea","YearBuilt"]]
t_df = t_df.reindex(["GrLivArea","YearBuilt","SalePrice"], axis='columns') #並び替え

home_x = t_df.loc[:,["GrLivArea","YearBuilt"]].values
home_t = t_df["SalePrice"].values

hx_train, hx_test, hy_train, hy_test = scratch_train_test_split(home_x,home_t, train_size=0.8,seed=32)

# 
# 1. 線形回帰
# 
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier

lm_clf = SGDClassifier(random_state=42)

print('1. 線形回帰')
print(f'fitのデータ: \n{lm_clf.fit(hx_train, hy_train)}')
print(f'predict : \n{lm_clf.predict(hx_test)}')   
print(f'score   : \n{lm_clf.score(hx_test, hy_test)}')   
print(f'train-score   : \n{lm_clf.score(hx_train, hy_train)}')   


print(f'混同行列 : \n{confusion_matrix(hy_test, lm_clf.predict(hx_test))}')

1. 線形回帰
fitのデータ: 
SGDClassifier(random_state=42)
predict : 
[163000 163000 163000 106000 106000 163000 163000 106000 106000 106000
 163000 106000 106000 106000 106000 106000 106000 106000 106000 106000
 106000 106000 106000 106000 106000 106000 106000 106000 163000 106000
 163000 106000 106000 106000 106000 106000 163000 163000 106000 163000
 106000 106000 106000 163000 106000 106000 106000 106000 163000 163000
 106000 106000 106000 106000 106000 106000 163000 106000 106000 106000
 106000 106000 106000 106000 106000 106000 163000 163000 163000 106000
 106000 106000 106000 106000 106000 163000 106000 163000 163000 106000
 106000 106000 163000 106000 163000 106000 106000 106000 228500 106000
 106000 163000 163000 163000 106000 106000 106000 106000 163000 106000
 106000 106000 106000 163000 106000 106000 106000 163000 106000 163000
 106000 106000 106000 163000 163000 106000 106000 106000 106000 163000
 163000 106000 163000 163000 106000 163000 106000 163000 106000 106000
 106000 106000 10