# Sprint0授業前課題 機械学習スクラッチ入門

この課題の目的   
- pyファイルを扱うことに慣れる
- 機械学習スクラッチの準備をする

## スクラッチ

次回から機械学習手法のスクラッチを行っていきます。Sprint2ではその準備として、scikit-learnのtrain_test_splitのスクラッチと、分類・回帰のパイプラインの作成を行います。

スクラッチ課題は、最終的にpyファイルをJupyter Notebook上から実行する形で作成していただきます。補助教材「pyファイルの利用方法」をご覧ください。

### スクラッチの意義

ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。

スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。

以下のような効果を狙っています。

- 新たな手法に出会った時に理論・数式を理解しやすくする
- ライブラリを使う上での曖昧さを減らす
- 既存の実装を読みやすくする

### GitHubにディレクトリを作成

スクラッチのコードを管理するため、「diveintocoe-term1」配下に以下のような構造で「ml-scratch」を作成してください。この構造は一例なので、随時自分なりに追加、変更していってください。

```
diveintocode-term1/
　├ ml-scratch/
　│　├ utils/
　│　└ model/
　├ sprint1/
　└ sprint2/
 ```

- utils : 手法に関わらず共通して使うコードを格納
- model : 各種モデルのコードを格納

この後作成するtrain_test_splitなどの関数は複数のSprintで使用するため、utilsの中に置いておき、それをインポートして使えるようにしていきます。



## 【問題1】 train_test_splitのスクラッチ

まずはスクラッチの練習として、scikit-learnのtrain_test_splitを自作してみましょう。Jupyter Notebookでコーディングを進め、完成後はpyファイルとします。utilsディレクトリの中にsplit.pyを作ってください。

[sklearn.model_selection.train_test_split — scikit-learn 0.20.0 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

雛形

```python
def train_test_split(X, y, train_size=0.8,):
    """
    学習用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く
    pass

    return X_train, X_test, y_train, y_test
```

テストの重要性

scikit-learnのtrain_test_splitと同じ動作をしているか必ずテストをするようにしましょう。ライブラリが存在するものをスクラッチする学習方法は動作の正しさを確認しやすいという利点があります。



In [1]:
import numpy as np
def scratch_train_test_split(X, y, train_size=0.8):
    """
    学習用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #Xの配列をシャッフルし、行番号を抽出
    permu = np.random.permutation(X[:, 0].size)

    #Xとyを、シャッフルした行番号順に並び替える
    X = X[permu]
    y = y[permu]

    #X_train, X_testをtrain_sizeの割合で行を分割
    X_train, X_test = np.vsplit(X, [int(X[:, 0].size * train_size)])
    #y_train, y_testをtrain_sizeの割合で列を分割
    y_train, y_test = np.split(y, [int(y.size * train_size)])

    return X_train, X_test, y_train, y_test

In [2]:
#テスト用のnumpy配列を作成
scratch_test_X = np.arange(0, 40).reshape(20, 2)
scratch_test_y = np.arange(50, 70)

In [3]:
scratch_test_X

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19],
       [20, 21],
       [22, 23],
       [24, 25],
       [26, 27],
       [28, 29],
       [30, 31],
       [32, 33],
       [34, 35],
       [36, 37],
       [38, 39]])

In [4]:
scratch_test_y

array([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
       67, 68, 69])

In [5]:
#スクラッチしたtrain_test_split_scratchの場合
scratch_train_test_split(scratch_test_X, scratch_test_y, train_size=0.8)

(array([[ 0,  1],
        [24, 25],
        [26, 27],
        [ 6,  7],
        [ 2,  3],
        [16, 17],
        [10, 11],
        [12, 13],
        [14, 15],
        [18, 19],
        [28, 29],
        [38, 39],
        [20, 21],
        [36, 37],
        [30, 31],
        [32, 33]]), array([[ 8,  9],
        [22, 23],
        [ 4,  5],
        [34, 35]]), array([50, 62, 63, 53, 51, 58, 55, 56, 57, 59, 64, 69, 60, 68, 65, 66]), array([54, 61, 52, 67]))

In [6]:
#sklearnのtrain_test_splitの場合
from sklearn.model_selection import train_test_split

train_test_split(scratch_test_X, scratch_test_y, test_size=0.2)

[array([[28, 29],
        [30, 31],
        [34, 35],
        [ 2,  3],
        [16, 17],
        [20, 21],
        [18, 19],
        [26, 27],
        [36, 37],
        [38, 39],
        [ 6,  7],
        [24, 25],
        [ 8,  9],
        [12, 13],
        [14, 15],
        [10, 11]]), array([[22, 23],
        [ 0,  1],
        [32, 33],
        [ 4,  5]]), array([64, 65, 67, 51, 58, 60, 59, 63, 68, 69, 53, 62, 54, 56, 57, 55]), array([61, 50, 66, 52])]

スクラッチしたtrain_test_splitと、sklearnのtrain_test_splitで同様の動作を確認できたので、スクラッチしたtrain_test_split関数はpyファイルとして、utilsディレクトリの中にsplit.pyとして格納。

## 【問題2】 分類パイプラインの作成

分類は3種類の手法を扱います。pyファイルで実行できる分類のパイプラインを作成してください。

- ロジスティック回帰
- SVM
- 決定木

データセットは3種類用意します。

1つ目は事前学習期間同様にirisデータセットです。

[sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)

2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。

virgicolorとvirginica
また、残り2つは可視化が可能な特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。

シンプルデータセット1作成コード

```python
import numpy as np

np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]
```

シンプルデータセット2作成コード

```python
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
```


ロジスティック回帰、SVM、決定木のパイプラインを作成し、pyファイルとしてsprint0に格納。

### ・irisデータセット

In [7]:
from sklearn import datasets
import pandas as pd

#irisデータセットの読み込み
iris = datasets.load_iris()

#virgicolorとvirginicaを抜き出して、ndarrayに格納
X = iris.data[50:]
y = iris.target[50:]

#分割
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [8]:
from sklearn.preprocessing import StandardScaler

#学習用データをfit(平均と標準偏差を計算)し、transform(標準化)
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)

#検証用データをtransform(標準化)
X_test_std = sc.transform(X_test)

In [9]:
#作成したロジスティック回帰のパイプラインを呼び出し
%run ScratchLogisticRegression

In [10]:
#モデルをfitさせ、予測するパイプラインを実行
ScratchLogisticRegression(X_train_std, X_test_std, y_train)



array([2, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 1, 2, 2, 2, 1, 1,
       1, 2, 1])

In [11]:
#作成したSVMのパイプラインを呼び出し
%run ScratchSVC

In [12]:
#モデルをfitさせ、予測するパイプラインを実行
ScratchSVC(X_train_std, X_test_std, y_train)

array([2, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 1, 2, 2, 2, 1, 1,
       1, 2, 1])

In [13]:
#作成した決定木のパイプラインを呼び出し
%run ScratchDecisionTreeClassifier

In [14]:
#モデルをfitさせ、予測するパイプラインを実行
ScratchDecisionTreeClassifier(X_train_std, X_test_std, y_train)

array([2, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 1, 2, 2, 2, 1, 1,
       1, 2, 1])

### ・シンプルデータセット1

In [15]:
 #シンプルデータセット1を作成
import numpy as np

np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [17]:
#ロジスティック回帰
#modelをfitさせ、予測するパイプラインを実行
ScratchLogisticRegression(X_train, X_test, y_train)



array([-1,  1, -1,  1, -1, -1, -1, -1,  1, -1, -1, -1,  1,  1, -1, -1, -1,
        1, -1, -1, -1,  1, -1, -1, -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,
       -1,  1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
        1,  1,  1, -1,  1, -1,  1,  1, -1, -1, -1, -1,  1, -1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
       -1,  1, -1,  1, -1,  1,  1, -1, -1,  1, -1,  1, -1,  1,  1,  1, -1,
        1,  1,  1, -1,  1,  1,  1,  1, -1, -1, -1, -1,  1,  1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1])

In [18]:
#SVM
#モデルをfitさせ、予測するパイプラインを実行
ScratchSVC(X_train, X_test, y_train)



array([-1,  1, -1,  1, -1, -1, -1, -1,  1, -1, -1, -1,  1,  1, -1, -1, -1,
        1, -1, -1, -1,  1, -1, -1, -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,
       -1,  1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
        1,  1,  1, -1,  1, -1,  1,  1, -1, -1, -1, -1,  1, -1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
       -1,  1, -1,  1, -1,  1,  1, -1, -1,  1, -1,  1, -1,  1,  1,  1, -1,
        1,  1,  1, -1,  1,  1,  1,  1, -1, -1, -1, -1,  1,  1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1])

In [19]:
#決定木
#モデルをfitさせ、予測するパイプラインを実行
ScratchDecisionTreeClassifier(X_train, X_test, y_train)

array([-1,  1, -1,  1, -1, -1, -1, -1,  1, -1, -1, -1,  1,  1, -1, -1, -1,
        1, -1, -1, -1,  1, -1, -1, -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,
       -1,  1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
        1,  1,  1, -1,  1, -1,  1,  1, -1, -1, -1, -1,  1, -1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1, -1, -1, -1, -1, -1,
       -1,  1, -1,  1, -1,  1,  1, -1, -1,  1, -1,  1, -1,  1,  1,  1, -1,
        1,  1,  1, -1,  1,  1,  1,  1, -1, -1, -1,  1,  1,  1,  1,  1, -1,
       -1,  1,  1,  1,  1, -1])

## ・シンプルデータセット2

In [20]:
#シンプルデータセット2を作成
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [22]:
#ロジスティック回帰
#modelをfitさせ、予測するパイプラインを実行
ScratchLogisticRegression(X_train, X_test, y_train)



array([1, 0, 0, 0, 1, 1, 1, 0, 0, 1])

In [23]:
#SVM
#モデルをfitさせ、予測するパイプラインを実行
ScratchSVC(X_train, X_test, y_train)



array([1, 0, 0, 1, 0, 0, 1, 1, 1, 0])

In [24]:
#決定木
#モデルをfitさせ、予測するパイプラインを実行
ScratchDecisionTreeClassifier(X_train, X_test, y_train)

array([1, 0, 0, 1, 0, 0, 1, 1, 1, 0])

## 【問題3】 回帰パイプラインの作成

回帰は1種類を扱います。pyファイルで実行できる回帰のパイプラインを作成してください。

- 線形回帰

データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。

[House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)

train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

線形回帰のパイプラインを作成し、pyファイルとしてsprint0に格納。

In [25]:
#データセットの読み込み
df = pd.read_csv('train.csv')

#データの抜き出して、ndarrayに格納
X = df[['GrLivArea', 'YearBuilt']].values
y = df['SalePrice'].values

#データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y)

#前処理
sc_X = StandardScaler()
sc_y = StandardScaler()

#学習用データをfit_transform
X_train_std = sc_X.fit_transform(X_train)
y_train_std = sc_y.fit_transform(y_train[:, np.newaxis]).flatten()

#検証用データをtransform
X_test_std = sc_X.transform(X_test)
y_test_std = sc_y.transform(y_test[:, np.newaxis]).flatten()



In [26]:
#作成した線形回帰のパイプラインを呼び出し
%run ScratchLinearRegression

In [27]:
#モデルをfitさせ、予測するパイプラインを実行
ScratchLinearRegression(X_train_std, X_test_std, y_train_std)

array([ 3.91323186e-01, -1.48214027e+00, -1.99198109e-01,  1.02193746e+00,
       -8.20893059e-02,  4.34169124e-01, -4.33400698e-01,  2.19898088e-01,
       -9.98206408e-01,  4.04833042e-01,  5.80301450e-01,  6.60986011e-01,
        3.00020784e-01, -8.34292283e-01, -8.50867662e-01, -5.15382496e-01,
       -5.01393135e-02, -6.80635203e-01,  7.66373916e-01,  4.14861454e-01,
        5.71798909e-01, -7.74434372e-01, -1.01459450e+00,  5.46707206e-01,
        7.22175614e-01,  1.46226244e+00, -3.27236076e-01,  9.09471541e-03,
        1.38838950e-01,  8.45984548e-02, -5.51879735e-02,  7.81402752e-01,
        1.51357238e-01, -3.76039553e-01,  8.10384929e-01, -6.14445176e-01,
        3.33025599e-01, -2.97484072e-01, -5.30036755e-01, -3.42015606e-01,
       -5.02448287e-01,  2.34807946e+00,  6.21607736e-01,  4.86273648e-01,
        1.36553681e+00,  3.12365565e-01, -3.03053253e-01, -3.80665400e-01,
       -2.39318647e-01, -4.10993051e-01, -1.37597565e+00,  4.20471979e-01,
       -5.88757155e-01, -