# スクラッチ

このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。


## スクラッチの意義
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。


スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。


以下のような効果を狙っています。


- 新たな手法に出会った時に理論・数式を理解しやすくする
- ライブラリを使う上での曖昧さを減らす
- 既存の実装を読みやすくする

## 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。


sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation


なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。


雛形

In [1]:
import numpy as np
import random

In [2]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く
    n_Xsamples = X.shape[0]
    n_Xfeatures = X.shape[1]

    n_Xtrain_samples = int(np.round(n_Xsamples*train_size)) #X_trainの要素数

    all_list = np.arange(n_Xsamples)
    num_train_list = random.sample(list(all_list), n_Xtrain_samples)
    num_test_list = [n for n in all_list if n not in num_train_list]

    X_train = X[num_train_list, :]
    X_test = X[num_test_list, :]

    y_train = y[num_train_list, :]
    y_test = y[num_test_list, :]
    
    return X_train, X_test, y_train, y_test

In [3]:
X = np.arange(80).reshape(4, 20)
y = np.array([['A'], ['B'], ['C'], ['D']])

print(X)
print(y)

[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79]]
[['A']
 ['B']
 ['C']
 ['D']]


In [4]:
scratch_train_test_split(X, y, train_size=0.8)

(array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
         16, 17, 18, 19],
        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
         36, 37, 38, 39],
        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
         76, 77, 78, 79]]),
 array([[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
         56, 57, 58, 59]]),
 array([['A'],
        ['B'],
        ['D']], dtype='<U1'),
 array([['C']], dtype='<U1'))

In [5]:
from sklearn.model_selection import train_test_split

train_test_split(X, y, train_size=0.8)

[array([[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
         36, 37, 38, 39],
        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,
         76, 77, 78, 79],
        [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
         16, 17, 18, 19]]),
 array([[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
         56, 57, 58, 59]]),
 array([['B'],
        ['D'],
        ['A']], dtype='<U1'),
 array([['C']], dtype='<U1')]

# scikit-learnを用いて機械学習を行うコードを作成

scikit-learnを使ったコードを作成していきます。


検証データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。

## 分類問題
分類は3種類の手法をスクラッチします。


- ロジスティック回帰
- SVM
- 決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。


- sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation
- sklearn.svm.SVC — scikit-learn 0.21.3 documentation
- sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation

データセットは3種類用意します。


1つ目は事前学習期間同様にirisデータセットです。


sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation


2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。


- virgicolorとvirginica

残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。


シンプルデータセット1作成コード

In [6]:
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X1 = X[random_index]
y1 = y[random_index]

シンプルデータセット2作成コード

In [7]:
X2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

In [8]:
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
import pandas as pd

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score, f1_score
from sklearn.metrics import confusion_matrix

In [9]:
y1 = y1.reshape(500, 1)
y2 = y2.reshape(40, 1)

In [10]:
iris = datasets.load_iris()
X3 = pd.DataFrame(iris.data)
y3 = pd.DataFrame(iris.target)
df = pd.concat([X3, y3], axis=1)
df = df[df.iloc[:, 4]!=0]
X3 = df.iloc[:, 0:4].values
y3 = df.iloc[:, 4].values.reshape(100, 1)

In [11]:
X1_train, X1_test, y1_train, y1_test = scratch_train_test_split(X1, y1, train_size=0.8)
X2_train, X2_test, y2_train, y2_test = scratch_train_test_split(X2, y2, train_size=0.8)
X3_train, X3_test, y3_train, y3_test = scratch_train_test_split(X3, y3, train_size=0.8)

In [12]:
def make_metrics(y_test, y_pred):
    print('Accuracy: %.3f' %accuracy_score(y_test, y_pred))
    print('Precision: %.3f' %precision_score(y_true=y_test, y_pred=y_pred))
    print('Recall: %3f' %recall_score(y_true=y_test, y_pred=y_pred))
    print('F1: %3f' %f1_score(y_true=y_test, y_pred=y_pred))
    

def learn_pred(X_train, X_test, y_train, y_test):
    #ロジスティック回帰
    lr = SGDClassifier(loss="log")
    lr.fit(X_train, y_train)
    y_lr_pred = lr.predict(X_test)
    
    #SVM
    svm = SVC(kernel='linear')
    svm.fit(X_train, y_train)
    y_svm_pred = svm.predict(X_test)
    
    #決定木
    tree = DecisionTreeClassifier()
    tree.fit(X_train, y_train)
    y_tree_pred = tree.predict(X_test)
    
    print('lr: ', y_lr_pred)
    make_metrics(y_test, y_lr_pred)
    print('-'*100)
    print('SVM: ', y_svm_pred)
    make_metrics(y_test, y_svm_pred)
    print('-'*100)
    print('tree: ', y_tree_pred)
    make_metrics(y_test, y_tree_pred)  

In [13]:
print('シンプルデータセット1')
learn_pred(X1_train, X1_test, y1_train, y1_test)
print('*'*100)
print('シンプルデータセット2')
learn_pred(X2_train, X2_test, y2_train, y2_test)
print('*'*100)
print('アヤメ')
learn_pred(X3_train, X3_test, y3_train, y3_test)

シンプルデータセット1
lr:  [ 1 -1 -1  1 -1  1 -1 -1  1 -1  1 -1 -1  1  1  1  1 -1 -1  1  1  1  1  1
 -1  1  1  1 -1 -1 -1 -1  1 -1 -1 -1  1 -1  1 -1  1 -1 -1  1 -1 -1  1  1
 -1  1 -1 -1 -1  1  1 -1  1  1  1  1  1  1  1  1  1  1  1  1 -1 -1 -1 -1
  1 -1 -1 -1 -1  1 -1  1  1 -1  1  1  1 -1 -1 -1 -1 -1  1 -1 -1  1  1 -1
 -1 -1 -1  1]
Accuracy: 1.000
Precision: 1.000
Recall: 1.000000
F1: 1.000000
----------------------------------------------------------------------------------------------------
SVM:  [ 1 -1 -1  1 -1  1 -1 -1  1 -1  1 -1 -1  1  1  1  1 -1 -1  1  1  1  1  1
 -1  1  1  1 -1 -1 -1 -1  1 -1 -1 -1  1 -1  1 -1  1 -1 -1  1 -1 -1  1  1
 -1  1 -1 -1 -1  1  1 -1  1  1  1  1  1  1  1  1  1  1  1  1 -1 -1 -1 -1
  1 -1 -1 -1 -1  1 -1  1  1 -1  1  1  1 -1 -1 -1 -1 -1  1 -1 -1  1  1 -1
 -1 -1 -1  1]
Accuracy: 1.000
Precision: 1.000
Recall: 1.000000
F1: 1.000000
----------------------------------------------------------------------------------------------------
tree:  [ 1 -1 -1  1 -1  1 -1 -1  1 -1

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


## 回帰問題
回帰は1種類をスクラッチします。


- 線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


House Prices: Advanced Regression Techniques


train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

## 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [14]:
df = pd.read_csv('train.csv')

In [15]:
df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [16]:
X = df.loc[:, ['GrLivArea', 'YearBuilt']]
y = df.loc[:, 'SalePrice']

In [17]:
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

In [18]:
def regression_analysis(X, y):
    slr = SGDRegressor()
    slr.fit(X, y)
    y_pred = slr.predict(X)
    print(y_pred)
    print('MSE: %.3f' % mean_squared_error(y, y_pred))

In [19]:
regression_analysis(X, y)

[2.45649675e+15 2.00432893e+15 2.53067343e+15 ... 3.05391642e+15
 1.81288348e+15 1.99418229e+15]
MSE: 5344428794941705905401763987456.000
