## Sprint

### 2.スクラッチ


このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。

スクラッチの意義
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。

スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。

以下のような効果を狙っています。

新たな手法に出会った時に理論・数式を理解しやすくする
ライブラリを使う上での曖昧さを減らす
既存の実装を読みやすくする

#### 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。

[http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

雛形

In [24]:
import numpy as np
import pandas as pd

In [30]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証データを分割する。
    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定
    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く

    np.random.seed(0)
    np.random.shuffle(X)
    np.random.seed(0)
    np.random.shuffle(y)
    X1 = int(X.shape[0] * train_size)
    y1 = int(y.shape[0] * train_size)
    X_train = X[:X1,:]
    X_test  = X[X1:,:]
    y_train = y[:y1]
    y_test  = y[y1:]

    
    
    return X_train, X_test, y_train, y_test

In [31]:
n1 = np.arange(1,100).reshape(33,3)
n1.shape

(33, 3)

In [32]:
X = n1[:,:2]
y = n1[:,2]

In [33]:
# X1 = float(X.shape[0] * 0.8)

In [34]:
# array1 = X[:X1,:2]

In [35]:
X_train,X_test,y_train,y_test = scratch_train_test_split(X, y)


In [37]:
X_train,X_test,y_test,y_train

(array([[34, 35],
        [61, 62],
        [73, 74],
        [52, 53],
        [ 7,  8],
        [76, 77],
        [79, 80],
        [49, 50],
        [31, 32],
        [97, 98],
        [88, 89],
        [70, 71],
        [46, 47],
        [25, 26],
        [40, 41],
        [91, 92],
        [16, 17],
        [43, 44],
        [85, 86],
        [67, 68],
        [ 4,  5],
        [37, 38],
        [19, 20],
        [13, 14],
        [55, 56],
        [64, 65]]),
 array([[58, 59],
        [28, 29],
        [22, 23],
        [94, 95],
        [82, 83],
        [10, 11],
        [ 1,  2]]),
 array([60, 30, 24, 96, 84, 12,  3]),
 array([36, 63, 75, 54,  9, 78, 81, 51, 33, 99, 90, 72, 48, 27, 42, 93, 18,
        45, 87, 69,  6, 39, 21, 15, 57, 66]))

In [10]:
X_test.shape

(7, 2)

#### トレインテストスプリット


In [11]:
from sklearn.model_selection import train_test_split

In [12]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X, y, test_size=0.27, random_state=0)

In [13]:
X_test2.shape

(9, 2)

### 3.scikit-learnを用いて機械学習を行うコードを作成


scikit-learnを使ったコードを作成していきます。

検証データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。


### 分類問題
分類は3種類の手法をスクラッチします。

ロジスティック回帰
SVM
決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。

[sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier)
[sklearn.svm.SVC — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)
[sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)

データセットは3種類用意します。

1つ目は事前学習期間同様にirisデータセットです。


[sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)


2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。

virgicolorとvirginica

残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。

#### シンプルデータセット1作成コード

In [39]:
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [40]:
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

#### 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

#### ロジスティック回帰

In [41]:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris["target_names"]

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [42]:
iris["feature_names"]

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [43]:
X = iris.data[50:,:2]
X.shape

(100, 2)

In [44]:
y = iris.target[50:]
y.shape

(100,)

In [45]:
X_train,X_test,y_train,y_test = scratch_train_test_split(X, y)

In [46]:
X_train.shape

(80, 2)

In [47]:
from sklearn.linear_model import SGDClassifier

In [48]:
rog = SGDClassifier(loss="log")

In [49]:
rog.fit(X_train,y_train)

SGDClassifier(loss='log')

In [50]:
y_pre1 = rog.predict(X_test)
y_pre1

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [27]:
from sklearn.metrics import accuracy_score

In [38]:
accuracy_score(y_test,y_pre1)

ValueError: Found input variables with inconsistent numbers of samples: [7, 20]

In [422]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X, y, test_size=0.27, random_state=0)

In [415]:
rog2 = SGDClassifier(loss="log")
rog2.fit(X_train,y_train)
y_pre2 = rog.predict(X_test)
y_pre2
accuracy_score(y_test,y_pre2)

0.5

#### svm


In [75]:
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [76]:
X_train,X_test,y_train,y_test = scratch_train_test_split(X, y)

In [77]:
X_train.shape

(400, 2)

In [78]:
from sklearn.svm import SVC
svm = SVC()

In [79]:
svm.fit(X_train,y_train)

SVC()

In [80]:
y_pre2 = rog.predict(X_test)
y_pre2

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

#### 決定木

In [40]:
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [41]:
X_train,X_test,y_train,y_test = scratch_train_test_split(X, y)

In [43]:
print(X.shape,X_train.shape)

(40, 2) (32, 2)


In [44]:
from sklearn.tree import DecisionTreeClassifier

In [45]:
tree = DecisionTreeClassifier()
tree.fit(X_train,y_train)

DecisionTreeClassifier()

In [46]:
y_pre3 = tree.predict(X_test)
y_pre3

array([1, 0, 0, 0, 0, 1, 0, 1])

### 回帰問題
回帰は1種類をスクラッチします。

- 線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


[sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html)


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


[House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)


train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

#### 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [47]:
from sklearn.linear_model import SGDRegressor

In [51]:
df = pd.read_csv("../../Week3/train.csv")

In [58]:
X = df.loc[:,["GrLivArea","YearBuilt"]].values

In [62]:
y = df.loc[:,["SalePrice"]].values

In [63]:
X_train,X_test,y_train,y_test = scratch_train_test_split(X, y)

In [65]:
reg = SGDRegressor()
reg.fit(X_train,y_train.ravel())

SGDRegressor()

In [70]:
y_pre = reg.predict(X_test)
y_pre

array([-6.67984986e+14,  2.54702807e+14, -1.35468234e+15, -1.24188391e+15,
       -1.29952978e+15, -4.48436321e+13, -5.11016790e+14, -2.32130769e+14,
       -1.48860171e+15, -1.23222539e+15, -1.14973399e+15, -1.32658714e+15,
       -4.62366066e+14, -1.04073876e+15,  8.04646249e+14, -1.28691743e+15,
       -1.04530800e+15, -1.23206791e+15, -8.96595443e+14, -1.04417939e+15,
       -1.02923344e+15, -9.32621659e+14, -1.01075386e+15, -1.16820638e+15,
       -1.07022271e+15, -1.30903802e+15, -1.19439999e+15, -1.16478484e+15,
       -9.01696624e+14, -9.19272032e+14, -1.31893040e+15, -1.16861681e+15,
       -1.51216115e+15, -9.47794274e+14, -1.15069794e+15, -1.04659879e+15,
       -1.38113361e+15, -6.68746070e+14, -1.38334544e+15, -1.00432592e+15,
       -1.23181496e+15, -1.03344235e+15, -8.98647322e+14, -9.54794826e+14,
       -1.60625334e+15, -1.44459661e+15, -1.41612917e+15, -1.48848243e+15,
       -8.46923490e+14, -1.26115086e+15, -1.45680821e+15, -1.28346960e+15,
       -1.47469608e+15, -