Sprint　機械学習スクラッチ入門

# このSprintについて

***Sprintの目的***
- 機械学習スクラッチの準備をする


***どのように学ぶか***
- 今後の機械学習スクラッチ課題で作成するモデルを、scikit-learnを用いて一度動かしておきます。これまでの復習を兼ねたスクラッチ課題の準備です。

# スクラッチ

このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。


スクラッチの意義
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。


スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。


以下のような効果を狙っています。


- 新たな手法に出会った時に理論・数式を理解しやすくする
- ライブラリを使う上での曖昧さを減らす
- 既存の実装を読みやすくする

<br>

## 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。


[sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)


なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

In [2]:
import numpy as np
import pandas as pd

### train_test_splitのスクラッチ

In [19]:
def scratch_train_test_split(X, y, train_size=0.8):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    np.random.seed(0)
    train_len = int(len(X)*train_size)
    
    tmp_list = np.random.choice(np.arange(len(X)), train_len, replace=False)
    list_index = []
    
    for i in range(len(X)):
        if i in tmp_list:
            list_index.append(True)
        else:
            list_index.append(False)
    
    # 学習データ
    X_train = X[list_index]
    y_train = y[list_index]
    
    # テストデータ
    X_test = X[np.logical_not(list_index)]
    y_test = y[np.logical_not(list_index)]
    
    pass
    return X_train, X_test, y_train, y_test

### スクラッチの検証

In [20]:
from sklearn.model_selection import train_test_split

X = np.arange(100).reshape(10, 10)
y = np.arange(10)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)
print('X_train: {},\n Xtest: {},\ny_train: {},\n y_test: {}'.format(X_train, X_test, y_train, y_test))

X_train_sc, X_test_sc, y_train_sc, y_test_sc = scratch_train_test_split(X, y)
print('\n====Scratch====\nX_train: {},\n X_test: {},\ny_train: {},\ny_test: {}'.format(X_train_sc,X_test_sc, y_train_sc, y_test_sc))

X_train: [[10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [90 91 92 93 94 95 96 97 98 99]
 [80 81 82 83 84 85 86 87 88 89]
 [ 0  1  2  3  4  5  6  7  8  9]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [40 41 42 43 44 45 46 47 48 49]],
 Xtest: [[30 31 32 33 34 35 36 37 38 39]
 [50 51 52 53 54 55 56 57 58 59]],
y_train: [1 2 9 8 0 6 7 4],
 y_test: [3 5]

====Scratch====
X_train: [[10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]],
 X_test: [[ 0  1  2  3  4  5  6  7  8  9]
 [50 51 52 53 54 55 56 57 58 59]],
y_train: [1 2 3 4 6 7 8 9],
y_test: [0 5]


# scikit-learnを用いて機械学習を行うコードを作成

scikit-learnを使ったコードを作成していきます。


検証データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。

<br>

***分類問題***

分類は3種類の手法をスクラッチします。

- ロジスティック回帰
- SVM
- 決定木

<br>
ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。


- [sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier)
- [sklearn.svm.SVC — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)
- [sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)

<br>
データセットは3種類用意します。


1つ目は事前学習期間同様にirisデータセットです。


[sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)


2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。


- virgicolorとvirginica

残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。

### iris datasetのインポート

In [23]:
from sklearn.datasets import load_iris

# import iris dataset
iris_data = load_iris()
# Extract .data data and set dedicated column names.
X_iris = pd.DataFrame(iris_data.data, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
# Extract .target data and set 'target' column.
y_iris = pd.DataFrame(iris_data.target, columns=['target'])
# Concatnate dataframe X and y. added as new column: axis=1, added as new rows: axis=2.
df_iris = pd.concat([X_iris, y_iris], axis=1)

# Extract rows by .query method and columns by .loc method.
df_iris_selected = df_iris.query("target == [1, 2]").loc[:, ["sepal_length", "petal_length", "target"]]
df_iris_selected.head()

Unnamed: 0,sepal_length,petal_length,target
50,7.0,4.7,1
51,6.4,4.5,1
52,6.9,4.9,1
53,5.5,4.0,1
54,6.5,4.6,1


In [27]:
X_train_iris, X_test_iris, y_train_iris, y_test_iris =  scratch_train_test_split(X_iris, y_iris, train_size=0.8)
print("X_train_iris.shape : {}, X_test_iris.shape : {}".format(X_train_iris.shape, X_test_iris.shape))
print("y_train_iris.shape : {}, y_test_iris.shape : {}".format(y_train_iris.shape, y_test_iris.shape))

X_train_iris.shape : (120, 4), X_test_iris.shape : (30, 4)
y_train_iris.shape : (120, 1), y_test_iris.shape : (30, 1)


***シンプルデータセット1作成コード***

In [42]:
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X1 = np.concatenate((f0, f1))
y1 = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X1 = X1[random_index]
y1 = y1[random_index]

In [43]:
X_train1, X_test1, y_train1, y_test1 =  scratch_train_test_split(X1, y1, train_size=0.8)

***シンプルデータセット2作成コード***

In [46]:
X2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [47]:
X_train2, X_test2, y_train2, y_test2 =  scratch_train_test_split(X2, y2, train_size=0.8)

## 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

### 評価指標出力ユーザ関数

In [59]:
from sklearn import metrics

def get_evaluate_indicator(model, X_train, X_test, y_train, y_test):
    # インスタンス化したモデルを渡すこと
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print('正解率: {}'.format(metrics.accuracy_score(y_test, y_pred)))
    print('適合率: {}'.format(metrics.precision_score(y_test, y_pred, average='macro')))
    print('再現率: {}'.format(metrics.recall_score(y_test, y_pred, average='macro')))
    print('F値: {}'.format(metrics.f1_score(y_test, y_pred, average='macro')))
    print('混合行列: \n{}\n'.format(metrics.confusion_matrix(y_test, y_pred)))

### sklearn　ロジスティック回帰
分類問題の方

sklearnを利用しないスクラッチの解説記事↓

[ロジスティック回帰をフルスクラッチで実装する](https://enjoyworks.jp/tech-blog/3087)

In [60]:
from sklearn.linear_model import SGDClassifier

log_reg = SGDClassifier(loss='log', max_iter=1000, tol=1e-3)
get_evaluate_indicator(log_reg, X_train_iris, X_test_iris, y_train_iris, y_test_iris)
get_evaluate_indicator(log_reg, X_train1, X_test1, y_train1, y_test1)
get_evaluate_indicator(log_reg, X_train2, X_test2, y_train2, y_test2)

正解率: 0.9666666666666667
適合率: 0.9666666666666667
再現率: 0.9696969696969697
F値: 0.9665831244778613
混合行列: 
[[10  0  0]
 [ 0 10  1]
 [ 0  0  9]]

正解率: 1.0
適合率: 1.0
再現率: 1.0
F値: 1.0
混合行列: 
[[56  0]
 [ 0 44]]

正解率: 0.25
適合率: 0.26666666666666666
再現率: 0.26666666666666666
F値: 0.25
混合行列: 
[[1 4]
 [2 1]]



  y = column_or_1d(y, warn=True)


### sklearn　SVM
分類問題の方

In [61]:
from sklearn.svm import SVC

svc = SVC()
get_evaluate_indicator(svc, X_train_iris, X_test_iris, y_train_iris, y_test_iris)
get_evaluate_indicator(svc, X_train1, X_test1, y_train1, y_test1)
get_evaluate_indicator(svc, X_train2, X_test2, y_train2, y_test2)

正解率: 0.9333333333333333
適合率: 0.9393939393939394
再現率: 0.9393939393939394
F値: 0.9333333333333332
混合行列: 
[[10  0  0]
 [ 0  9  2]
 [ 0  0  9]]

正解率: 1.0
適合率: 1.0
再現率: 1.0
F値: 1.0
混合行列: 
[[56  0]
 [ 0 44]]

正解率: 0.75
適合率: 0.8
再現率: 0.8
F値: 0.7499999999999999
混合行列: 
[[3 2]
 [0 3]]



  y = column_or_1d(y, warn=True)


### sklearn　決定木
分類問題の方

In [62]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier(random_state=0)
get_evaluate_indicator(dtc, X_train_iris, X_test_iris, y_train_iris, y_test_iris)
get_evaluate_indicator(dtc, X_train1, X_test1, y_train1, y_test1)
get_evaluate_indicator(dtc, X_train2, X_test2, y_train2, y_test2)

正解率: 0.9333333333333333
適合率: 0.9393939393939394
再現率: 0.9393939393939394
F値: 0.9333333333333332
混合行列: 
[[10  0  0]
 [ 0  9  2]
 [ 0  0  9]]

正解率: 1.0
適合率: 1.0
再現率: 1.0
F値: 1.0
混合行列: 
[[56  0]
 [ 0 44]]

正解率: 1.0
適合率: 1.0
再現率: 1.0
F値: 1.0
混合行列: 
[[5 0]
 [0 3]]



### 回帰問題
回帰は1種類をスクラッチします。


- 線形回帰

<br>

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


[sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html)


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


[House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)


`train.csv`をダウンロードし、目的変数として`SalePrice`、説明変数として、`GrLivArea`と`YearBuilt`を使います。

### House Priceの学習データのインポート

In [68]:
hp_train = pd.read_csv('../wk3/train.csv')
hp_train_selected = hp_train[["GrLivArea", "YearBuilt", "SalePrice"]]
hp_train_selected.head()

Unnamed: 0,GrLivArea,YearBuilt,SalePrice
0,1710,2003,208500
1,1262,1976,181500
2,1786,2001,223500
3,1717,1915,140000
4,2198,2000,250000


In [71]:
X_train, X_test, y_train, y_test =  scratch_train_test_split(hp_train_selected[["GrLivArea", "YearBuilt",]], hp_train_selected[['SalePrice']], train_size=0.8)

## 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [81]:
def regression(scaler, X_train, X_test, y_train, y_test, model):
    scaler.fit(X_train)
    X_train_scaled = scaler.transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    y_train_scaled = np.log(y_train)
    model.fit(X_train_scaled, y_train_scaled)
    y_pred = model.predict(X_test_scaled)
    print('平均二乗誤差: {}'.format(metrics.mean_squared_error(y_test, y_pred)))
    print('決定係数: {}\n'.format(metrics.r2_score(y_test, np.exp(y_pred))))

In [82]:
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler

sgdr = SGDRegressor(loss='squared_loss', max_iter=1000, tol=1e-3)
scaler = StandardScaler()

regression(scaler, X_train, X_test, y_train, y_test, sgdr)

平均二乗誤差: 34062717990.72248
決定係数: 0.7052536290654061



  y = column_or_1d(y, warn=True)
