# **機械学習スクラッチ入門**

今後の機械学習スクラッチ課題で作成するモデルを、scikit-learnを用いて一度動かしておきます。これまでの復習を兼ねたスクラッチ課題の準備です。

このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。

**【スクラッチの意義】**  
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。


スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。
以下のような効果を狙っています。
- 新たな手法に出会った時に理論・数式を理解しやすくする
- ライブラリを使う上での曖昧さを減らす
- 既存の実装を読みやすくする

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline

from decimal import Decimal, ROUND_HALF_UP

### 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。


[sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)


なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。  

>[参考1](https://www.it-swarm.dev/ja/python/numpy%ef%bc%9a2d%e9%85%8d%e5%88%97%e3%81%8b%e3%82%89%e8%a1%8c%e3%81%ae%e3%83%a9%e3%83%b3%e3%83%80%e3%83%a0%e3%82%bb%e3%83%83%e3%83%88%e3%82%92%e5%8f%96%e5%be%97%e3%81%97%e3%81%be%e3%81%99/1069900142/)  
[参考2](https://www.sky-limit-future.com/entry/numpy-aggregate-function)  
[numpy.random.choice](https://het.as.utexas.edu/HET/Software/Numpy/reference/generated/numpy.random.choice.html)  
[numpy.setdiff1d](https://numpy.org/doc/stable/reference/generated/numpy.setdiff1d.html)

In [2]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #Xから（Xのサンプル数*train_size）個のランダムな行をndarrayとして抜き出す
    train_row_num = np.random.choice(X.shape[0], \
                                                                   size=int(Decimal(X.shape[0]*train_size).quantize(Decimal("0"), rounding = ROUND_HALF_UP)), \
                                                                   replace=False)
    X_train = X[train_row_num, :]
    
    #XとX_trainの差集合がX_test
    test_row_num = np.setdiff1d(np.array(range(X.shape[0])), train_row_num)
    X_test = X[test_row_num, :]
    
    y_train = y[train_row_num]
    y_test = y[test_row_num]
    
    return X_train, X_test, y_train, y_test

- スクラッチした関数の整合性確認

In [3]:
#train_test_split　を使用
np.random.seed(0)
ex_X = np.random.choice(30, size=(10,2), replace=True)
print("ex_X:\n{}".format(ex_X))
ex_y = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1])
print("ex_y:\n{}".format(ex_y))
print("--------------------")

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(ex_X, ex_y, test_size=0.2, random_state=0)

print("X_train:\n{}".format(X_train))
print("y_train:\n{}".format(y_train))
print("X_test:\n{}".format(X_test))
print("y_test:\n{}".format(y_test))

ex_X:
[[12 15]
 [21  0]
 [ 3 27]
 [ 3  7]
 [ 9 19]
 [21 18]
 [ 4 23]
 [ 6 24]
 [24 12]
 [26  1]]
ex_y:
[0 0 0 0 0 1 1 1 1 1]
--------------------
X_train:
[[ 9 19]
 [26  1]
 [21  0]
 [ 4 23]
 [ 6 24]
 [ 3  7]
 [12 15]
 [21 18]]
y_train:
[0 1 0 1 1 0 0 1]
X_test:
[[ 3 27]
 [24 12]]
y_test:
[0 1]


In [4]:
#スクラッチした関数を使用
X_train, X_test, y_train, y_test = scratch_train_test_split(ex_X, ex_y, train_size=0.8,)
print("X_train:\n{}".format(X_train))
print("y_train:\n{}".format(y_train))
print("X_test:\n{}".format(X_test))
print("y_test:\n{}".format(y_test))

X_train:
[[21 18]
 [ 3 27]
 [ 3  7]
 [ 9 19]
 [21  0]
 [12 15]
 [26  1]
 [24 12]]
y_train:
[1 0 0 0 0 0 1 1]
X_test:
[[ 4 23]
 [ 6 24]]
y_test:
[1 1]


スクラッチした関数の整合性はとれていそう。

#### Q1
同じランダムシード（ランダムステート？？）で整合性の確認をしたかったがやり方がわからなかった。

***

scikit-learnを使ったコードを作成していきます。


検証データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。


**分類問題**  
分類は3種類の手法をスクラッチします。


- ロジスティック回帰
- SVM
- 決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。

[sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier)  
[sklearn.svm.SVC — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)  
[sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)  

データセットは3種類用意します。  
1つ目は事前学習期間同様にirisデータセットです。  
[sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)  

2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。

- virgicolorとvirginica

残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。



In [5]:
#irisデータセット

from sklearn.datasets import load_iris
iris_data = load_iris()

df = pd.DataFrame(iris_data.data, columns=["sepal_length", "sepal_width", "petal_length", "petal_width"])
df["target"] = iris_data.target

df_1 = df.loc[df["target"].isin([1, 2]), ["sepal_length", "petal_length", "target"]]
display(df_1)

Unnamed: 0,sepal_length,petal_length,target
50,7.0,4.7,1
51,6.4,4.5,1
52,6.9,4.9,1
53,5.5,4.0,1
54,6.5,4.6,1
55,5.7,4.5,1
56,6.3,4.7,1
57,4.9,3.3,1
58,6.6,4.6,1
59,5.2,3.9,1


In [6]:
#シンプルデータセット1作成コード

import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [7]:
#シンプルデータセット2作成コード

X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

### 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

In [8]:
#irisデータセット

from sklearn.datasets import load_iris
iris_data = load_iris()

df = pd.DataFrame(iris_data.data, columns=["sepal_length", "sepal_width", "petal_length", "petal_width"])
df["target"] = iris_data.target

df_1 = df.loc[df["target"].isin([1, 2]), ["sepal_length", "petal_length", "target"]]

#データ分割
X, y = df_1.loc[:, ["sepal_length","petal_length" ]].values, df_1.loc[:, "target"].values
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8,)

#学習、推定
#ロジスティック回帰
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(loss="log").fit(X_train, y_train)
print("ロジスティック回帰:\n{}".format(clf.predict(X_test)))

#SVM
from sklearn.svm import SVC
svc = SVC().fit(X_train, y_train)
print("SVC:\n{}".format(svc.predict(X_test)))

#決定木
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier().fit(X_train, y_train)
print("決定木:\n{}".format(tree.predict(X_test)))

ロジスティック回帰:
[1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2 1]
SVC:
[1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2 2]
決定木:
[1 1 1 1 1 1 1 1 2 1 2 2 2 2 2 2 2 2 2 1]




In [9]:
#シンプルデータセット1

import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

#データ分割
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8,)

#学習、推定
#ロジスティック回帰
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(loss="log").fit(X_train, y_train)
clf.predict(X_test)
print("ロジスティック回帰:\n{}".format(clf.predict(X_test)))

#SVM
from sklearn.svm import SVC
svc = SVC().fit(X_train, y_train)
print("SVC:\n{}".format(svc.predict(X_test)))

#決定木
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier().fit(X_train, y_train)
print("決定木:\n{}".format(tree.predict(X_test)))

ロジスティック回帰:
[ 1  1 -1 -1 -1  1  1  1  1  1  1  1 -1  1  1 -1  1  1  1 -1 -1 -1  1  1
 -1 -1  1 -1  1  1  1  1  1 -1 -1 -1  1  1  1 -1 -1 -1 -1  1  1 -1 -1 -1
 -1  1 -1  1  1 -1  1  1 -1 -1  1  1  1  1  1 -1  1 -1 -1  1 -1  1  1  1
 -1 -1  1 -1  1 -1  1  1  1  1  1 -1 -1  1 -1  1 -1 -1  1 -1 -1 -1 -1  1
  1  1 -1  1]
SVC:
[ 1  1 -1 -1 -1  1  1  1  1  1  1  1 -1  1  1 -1  1  1  1 -1 -1 -1  1  1
 -1 -1  1 -1  1  1  1  1  1 -1 -1 -1  1  1  1 -1 -1 -1 -1  1  1 -1 -1 -1
 -1  1 -1  1  1 -1  1  1 -1 -1  1  1  1  1  1 -1  1 -1 -1  1 -1  1  1  1
 -1 -1  1 -1  1 -1  1  1  1  1  1 -1 -1  1 -1  1 -1 -1  1 -1 -1 -1 -1  1
  1  1 -1  1]
決定木:
[ 1  1 -1 -1 -1  1  1  1  1  1  1  1 -1  1  1 -1  1  1  1 -1 -1 -1  1  1
 -1 -1  1 -1  1  1  1  1  1 -1 -1 -1  1  1  1 -1 -1 -1 -1  1  1 -1 -1 -1
 -1  1 -1  1  1 -1  1  1 -1 -1  1  1  1  1  1 -1  1 -1 -1  1 -1  1  1  1
 -1 -1  1 -1  1 -1  1  1  1  1  1 -1 -1  1 -1  1 -1 -1  1 -1 -1 -1 -1  1
  1  1 -1  1]




In [10]:
#シンプルデータセット2

X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

#データ分割
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8,)

#学習、推定
#ロジスティック回帰
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(loss="log").fit(X_train, y_train)
clf.predict(X_test)
print("ロジスティック回帰:\n{}".format(clf.predict(X_test)))

#SVM
from sklearn.svm import SVC
svc = SVC().fit(X_train, y_train)
print("SVC:\n{}".format(svc.predict(X_test)))

#決定木
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier().fit(X_train, y_train)
print("決定木:\n{}".format(tree.predict(X_test)))

ロジスティック回帰:
[0 1 1 0 1 1 1 1]
SVC:
[0 1 1 1 1 1 1 1]
決定木:
[0 0 0 1 1 1 1 1]




***

**回帰問題**
回帰は1種類をスクラッチします。


- 線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


[sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html)


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


[House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)


train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

### 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [11]:
df = pd.read_csv("train.csv")
X = df.loc[:, ["GrLivArea", "YearBuilt"]].values
y = df.loc[:, "SalePrice"].values

#データ分割
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8,)

#学習、推定
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier().fit(X_train, y_train)
print("ロジスティック回帰:\n{}".format(clf.predict(X_test)))



ロジスティック回帰:
[285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 285000
 285000 285000 285000 285000 285000 285000 285000 285000 285000 28