 # Sprint課題　機械学習スクラッチ入門

## 目的  
機械学習スクラッチの準備をする  
  
## どのように学ぶか   
今後の機械学習スクラッチ課題で作成するモデルを、scikit-learnを用いて一度動かしておきます。これまでの復習を兼ねたスクラッチ課題の準備です。


## スクラッチ  
このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。  
  
スクラッチの意義  
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。  
スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。  
以下のような効果を狙っています。  
・新たな手法に出会った時に理論・数式を理解しやすくする  
・ライブラリを使う上での曖昧さを減らす  
・既存の実装を読みやすくする  

### 【問題1】train_test_splitのスクラッチ  
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。
[sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)  
なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

**雛形**  
def scratch_train_test_split(X, y, train_size=0.8,):  
    """  
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く
    pass

    return X_train, X_test, y_train, y_test

In [49]:
# ライブラリのインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
import missingno as msno
# 層化抽出法を用いたK-分割交差検証
from sklearn.model_selection import StratifiedKFold, cross_validate

from sklearn.model_selection import GridSearchCV

import threading

# 予測結果CSVのファイル名に時刻を入れるため
from datetime import datetime


In [69]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定
      要素数に端数が生じた場合は切り捨てにする。

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    
    # 受け取った配列のサイズを調べる
    #print(X.size)
    size_arry_X = X.size
    #print(arry_size_X)
    
    size_arry_y = y.size
    
    #Xとyのサイズが合っているかチェックする
    #サイズが合っていなかったら、エラーとする
    # tryに書き直す？
    assert size_arry_X == size_arry_y, "X and y is not same size."
    
    # サイズが合っていたら、インデックスを要素とした配列を作る
    index_arry = np.arange(size_arry_X)
    #print(index_arry)
    
    #train_size掛ける要素数だけ、インデックスをランダムにポップする。ポップしたインデックスを格納する。
    train_size_int = int(size_arry_X * train_size)
    #print(np.random.choice(index_arry, train_size_int, replace=False))
    index_train = np.random.choice(index_arry, train_size_int, replace=False)
    
    # trainにないインデックスをtestに振る
    index_test_boolean = np.ones(size_arry_X, dtype=bool)
    index_test_boolean[index_train] = False
    
    #格納されたインデックスのX、yをX_train, y_trainとする
    X_train, y_train = X[index_train], y[index_train]
    
    
    # ポップしたインデックスにないものをX_test、y_testとする
    X_test, y_test = X[index_test_boolean], y[index_test_boolean]
    
    return X_train, X_test, y_train, y_test

In [71]:
# 検証
arry_test_X = np.array([0, 1, 2, 3, 4, 5])
print(arry_test_X)
arry_test_y = np.array([0, 0, 1, 1, 2, 2])

[0 1 2 3 4 5]


In [72]:
scratch_train_test_split(arry_test_X, arry_test_y)

(array([5, 4, 2, 3]), array([0, 1]), array([2, 2, 1, 1]), array([0, 0]))