# Sprint_2 機械学習スクラッチ入門

-----
**【目的】**
* 機械学習手法のスクラッチ課題に取り組む準備を行う。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成する。
* Numpyなどの基本的なライブラリを組み合わせて、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作する。
* 上記を行い、scikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指す。
* また、今後の新たな手法に出会った時に理論・数式を理解しやすくする。
* ライブラリを使う上での曖昧さを減らす。
* 既存の実装を読みやすくする。

## 【問題1】train_test_splitのスクラッチ

* スクラッチの練習として、scikit-learnのtrain_test_splitを自作する。以下の雛形をベースとして関数を完成させよ。
* [sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

* なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をすること。

### 【確認】

* train_test_split関数はscikit-learnライブラリ内にある一関数である。
* データの前処理の一環として利用する。
* 訓練データと検証データに指定した割合にランダムで分割する。
* Xとyの配列を変数とし、Xとyの訓練データと検証データをそれぞれ出力する。

In [9]:
import random
import numpy as np

def scratch_train_test_split(X, y, train_size=0.8):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    
    Process
    ----------
    1. Randomizing
        1. Using np.random.shuffle(), shuffle the two arrays.
        2. Make pre_shuffle_x, pre_shuffle_y, post_shuffle_x, post_shuffle_y.

    2. Dividing (Default: test_size 0.25, train_size 0.75)
        1. Using this [tactics](https://stackoverflow.com/questions/58374049/split-a-list-with-a-adjustable-ratio) to split a list.
        2. Make 2 splitted lists for train and test from each X and y
    3. Return
        1. Return value.
    
    """
    
    # Intake parameter X, y and shuffle them.
    np.random.shuffle(X)
    np.random.shuffle(y)
    
    # Split X and y into given ratio using len() function.
    elements_x = len(X)
    
    # print(f"elements_x:{elements_x}") # Return number of items
    middle_x = int(elements_x * train_size) # The number of items is divided.
    X_train, X_test = X[:middle_x], X[middle_x:] # "middle_x" becomes the mid point to seperate.
    
    # print(f"x_train:{X_train}, x_test{X_test}") # Sanity check.

    elements_y = len(y) # Same logic as X.
    middle_y = int(elements_y * train_size)
    y_train, y_test = y[:middle_y], y[middle_y:]
    
    return X_train, X_test, y_train, y_test

### 【Scikit-learnとの検証】

In [10]:
# Sample data
X, y = np.arange(10).reshape((5, 2)), [1, 2, 3, 4, 5]
X, y

(array([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]]),
 [1, 2, 3, 4, 5])

In [19]:
from sklearn.model_selection import train_test_split

X_train_skl, X_test_skl, y_train_skl, y_test_skl = train_test_split(X, y, test_size=0.2, random_state=42)
print("scikit-learnの返り値 X_train_sklは\n{}".format(X_train))
print("scikit-learnの返り値 X_test_sklは{}".format(X_test))
print("scikit-learnの返り値 y_train_sklは{}".format(y_train))
print("scikit-learnの返り値 y_testsklは{}".format(y_test)) 
print()
print()
print()
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y)
print("スクラッチの返り値 X_trainは\n{}".format(X_train))
print("スクラッチの返り値 X_testは{}".format(X_test))
print("スクラッチの返り値 y_trainは{}".format(y_train))
print("スクラッチの返り値 y_testは{}".format(y_test)) 

scikit-learnの返り値 X_train_sklは
[[4 5]
 [8 9]
 [0 1]
 [2 3]]
scikit-learnの返り値 X_test_sklは[[6 7]]
scikit-learnの返り値 y_train_sklは[4, 3, 1, 2]
scikit-learnの返り値 y_testsklは[5]



スクラッチの返り値 X_trainは
[[4 5]
 [6 7]
 [2 3]
 [8 9]]
スクラッチの返り値 X_testは[[0 1]]
スクラッチの返り値 y_trainは[5, 1, 4, 3]
スクラッチの返り値 y_testは[2]


## 【問題2】 分類問題を解くコードの作成

**Scikit-learnの３種類の分類手法を用いたコードを作成して、３種類のデータセットを分類検証させる。**

-----

1. ロジスティック回帰（SGDClassifier）を用い、3種類のデータセットを学習・推定するコードを作成する。
2. SVMを用い、3種類のデータセットを学習・推定するコードを作成する。
3. 決定木を用い、3種類のデータセットを学習・推定するコードを作成する。

### 【準備】3種類のデータセットを用意する。

In [2]:
# Irisデータセット
# 二値分類とするため、virgicolorとvirginicaのみを目的変数、特徴量は4種全てを使う。

from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris = load_iris()

# 基データからを特徴量（説明変数）をデータフレーム化。
iris_raw_data = pd.DataFrame(iris.data, columns=iris.feature_names)

# 基データから特定の2品種(virgicolor:1, virginica:2)のみを抽出。
# まず基データから目的変数を抽出したデータフレームを作成。
iris_raw_species = pd.DataFrame(iris.target, columns=["species"])
# そのデータフレームから特定の2品種のキーのみを抽出。
iris_species = iris_raw_species[iris_raw_species['species'].isin([1, 2])]

# 上記2つのデータフレームを結合させる。
iris_df = pd.concat([iris_raw_data, iris_species], join='inner', axis=1)

# 説明変数と目的変数とでnumpy配列化
X_iris = np.array(iris_df.iloc[:, :4])
y_iris = np.array(iris_df.iloc[:, 4:5])

In [21]:
# シンプルデータセット１

import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X_simple1 = X[random_index]
y_simple1 = y[random_index]

In [23]:
# シンプルデータセット２

X_simple2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y_simple2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

### 【解答2_1】ロジスティック回帰による学習・推定までのコード

In [31]:
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline


def stochastic_gradient_descent(X, y, train_size=0.8):
    """
    ロジスティック回帰による学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SGDClassifierを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # StandardScalerを用いてX_trainを標準化する。(pipelineを用いての省略も可)
    # インスタンス化
    sc = StandardScaler()
    # 平均値と標準偏差値の学習
    sc.fit(X_train)
    
    # X_trainとX_testを標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)

    # Process_3 SGDCLassifierを用いて学習する。
    lr = SGDClassifier(loss='log')
    lr.fit(X_train_std, y_train)
    
    # Process_4 fit後の推定(predict)を行う。
    predicted_test = lr.predict(X_test_std)
    
    return predicted_test

In [35]:
# Irisデータセットを用いての検証
stochastic_gradient_descent(X_iris, y_iris, 0.8)

array([1, 1, 2, 2, 2, 1, 2, 2, 1, 1, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1])

In [36]:
# シンプルデータセット1を用いての検証
stochastic_gradient_descent(X_simple1, y_simple1, 0.8)

array([-1,  1,  1,  1,  1,  1, -1, -1, -1,  1,  1,  1,  1,  1, -1,  1,  1,
        1, -1, -1,  1, -1,  1, -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,  1,
        1,  1, -1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1, -1,
       -1,  1,  1, -1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1,  1,  1, -1,
        1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1, -1,  1,  1,
        1, -1,  1,  1,  1,  1,  1, -1,  1,  1, -1, -1,  1, -1,  1])

In [34]:
# シンプルデータ2を用いての検証
stochastic_gradient_descent(X_simple2, y_simple2, 0.8)

array([1, 1, 1, 1, 1, 1, 1, 1])

### 【解答2_2】SVMによる学習・推定までのコード

In [67]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

def svm_function (X, y, train_size):
    """
    SVMによる学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SVCを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # StandardScalerを用いてX_trainを標準化する。
    sc = StandardScaler()
    
    # 平均値と標準偏差値の算出
    sc.fit(X_train)
    
    # 標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)
    
    # SVCを用いて学習する。
    model = SVC(gamma='scale')
    model.fit(X_train_std, y_train)
    
    # fit後の推定(predict)を行う。
    predicted_test = model.predict(X_test_std)
    
    return predicted_test

In [68]:
# Irisデータセットを用いての検証
svm_function(X_iris, y_iris, 0.8)

array([2, 1, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1, 2, 2, 1, 2, 1, 1, 2, 2])

In [48]:
# シンプルデータセット1を用いての検証
svm_function(X_simple1, y_simple1, 0.8)

array([ 1, -1, -1,  1,  1,  1, -1,  1,  1,  1, -1,  1, -1,  1,  1, -1, -1,
       -1,  1, -1,  1, -1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,
        1, -1,  1,  1, -1,  1,  1, -1,  1,  1,  1,  1, -1, -1, -1,  1,  1,
       -1, -1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1,  1, -1, -1,
        1, -1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1, -1,  1, -1,  1,
        1,  1,  1,  1, -1,  1,  1, -1,  1,  1, -1,  1, -1,  1,  1])

In [49]:
# シンプルデータ2を用いての検証
svm_function(X_simple2, y_simple2, 0.8)

array([0, 0, 1, 1, 1, 0, 0, 0])

### 【解答2_3】決定木による学習・推定までのコード

In [73]:
from sklearn import tree

def tree_function (X, y, z):
    """
    決定木による学習・推定まで行う。


    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    z : 木の深さ
    
    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. tree.DecisionTreeClassifierを用いて学習する。
    2. predictを用いて推定する。
    
    """    
    # scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # treeを用いて学習する。
    clf = tree.DecisionTreeClassifier(max_depth=z)
    clf.fit(X_train, y_train)
    
    # fit後の推定(predict)を行う。
    predicted_test = clf.predict(X_test)
    
    return predicted_test

In [74]:
# Irisデータセットを用いての検証
tree_function(X_iris, y_iris, 3)

array([2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1, 1, 2, 2])

In [75]:
# シンプルデータセット1を用いての検証
tree_function(X_simple1, y_simple1, 3)

array([-1,  1,  1,  1, -1,  1, -1,  1,  1, -1,  1,  1, -1,  1,  1, -1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,
       -1,  1,  1, -1,  1,  1, -1,  1, -1,  1,  1,  1, -1,  1, -1,  1, -1,
        1,  1,  1, -1,  1, -1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,
       -1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1, -1,  1, -1,  1,
        1,  1,  1,  1,  1,  1,  1, -1, -1,  1,  1,  1, -1,  1,  1])

In [76]:
# シンプルデータセット2を用いての検証
tree_function(X_simple2, y_simple2, 3)

array([1, 1, 0, 1, 1, 1, 1, 1])

## 【問題3】 回帰問題を解くコードの作成

* House Pricesデータセットを学習・推定するコードをスクラッチする。
    * House Pricesコンペティションのデータセットを利用する。
        * train.csvをダウンロード。
        * 目的変数：SalePrice
        * 説明変数：GrLivArea, YearBuilt
    * SGDRegressorクラスを利用する。

In [4]:
# データセットを用意する
# File system manangement
import os

house_df = pd.read_csv('../Data/house_prices_train.csv')

# 目的変数
y_house = np.array(house_df.loc[:, ['SalePrice']])

# 説明変数
X_house = np.array(house_df.loc[:, ['GrLivArea', 'YearBuilt']])

In [81]:
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

def linear_regression(X, y, train_size=0.8):
    """
    線形回帰による学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SGDClassifierを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # Process_2 StandardScalerを用いてX_trainを標準化する。
    sc = StandardScaler()
    
    # 平均値と標準偏差値の算出
    sc.fit(X_train)
    
    # 標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)
    
    # SGDCLassifierを用いて学習する。
    reg = SGDRegressor(max_iter=1000)
    reg.fit(X_train_std, y_train)
    
    # fit後の推定(predict)を行う。
    predicted_test = reg.predict(X_test_std)
    
    return predicted_test

In [82]:
# 推定結果
predicted_test = linear_regression(X_house, y_house, 0.8)
result = pd.DataFrame(predicted_test, columns=['predicted_prices'])
result

Unnamed: 0,predicted_prices
0,175948.371611
1,200288.530674
2,171907.652631
3,182356.798909
4,184345.641940
...,...
287,179252.671087
288,184036.838078
289,176513.714257
290,185275.066471
