### 【問題1】train_test_splitのスクラッチ 
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。
sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation
なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

In [1]:
import numpy as np

In [2]:
def scratch_train_test_split(X, y, train_size=0.8):
    """
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    z = np.concatenate([X,y],axis=1)
    np.random.shuffle(z)
    z_train, z_test = np.array_split(z, [int(len(z)*train_size)])
    X_train = z_train[:,:-1]
    y_train = z_train[:,-1].reshape(z_train.shape[0], 1)
    X_test = z_test[:,:-1]
    y_test = z_test[:,-1].reshape(z_test.shape[0], 1)    
    return X_train, X_test, y_train, y_test


In [3]:
X = np.arange(15).reshape(5,3)
y = np.array([5,6,3,7,9])
y = y.reshape(5,1)
display(X)
display(y)
y.shape
len(X)
z = np.concatenate([X,y],axis=1)
z

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

array([[5],
       [6],
       [3],
       [7],
       [9]])

array([[ 0,  1,  2,  5],
       [ 3,  4,  5,  6],
       [ 6,  7,  8,  3],
       [ 9, 10, 11,  7],
       [12, 13, 14,  9]])

In [4]:
X_train, X_test, y_train, y_test = scratch_train_test_split(X,y,0.6)
print("\n「Scratch」")
print("---Scratch_X_train---\n{}".format(X_train))
print("---Scratch_y_train---\n{}".format(y_train))
print("---Scratch_X_test---\n{}".format(X_test))
print("---Scratch_y_test---\n{}".format(y_test))

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.4, 
                                                    random_state=0)
print("\n「Sklearn」")
print("---Sklearn_X_train---\n{}".format(X_train))
print("---Sklearn_y_train---\n{}".format(y_train))
print("---Sklearn_X_test---\n{}".format(X_test))
print("---Sklearn_y_test---\n{}".format(y_test))


「Scratch」
---Scratch_X_train---
[[ 0  1  2]
 [ 6  7  8]
 [ 9 10 11]]
---Scratch_y_train---
[[5]
 [3]
 [7]]
---Scratch_X_test---
[[ 3  4  5]
 [12 13 14]]
---Scratch_y_test---
[[6]
 [9]]

「Sklearn」
---Sklearn_X_train---
[[ 3  4  5]
 [ 9 10 11]
 [12 13 14]]
---Sklearn_y_train---
[[6]
 [7]
 [9]]
---Sklearn_X_test---
[[6 7 8]
 [0 1 2]]
---Sklearn_y_test---
[[3]
 [5]]


### 【問題2】 分類問題を解くコードの作成 
分類は3種類の手法をスクラッチします。
・ロジスティック回帰
・SVM
・決定木
ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。

データセットは3種類用意します。
1つ目は事前学習期間同様にirisデータセットです。
2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。
virgicolorとvirginica
残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

In [5]:
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X_data1 = X[random_index]
y_data1 = y[random_index]

In [6]:
X_data2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y_data2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [8]:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=["sepal_length","sepal_width","petal_length","petal_width"])
y = pd.DataFrame(iris.target, columns=["target"])

X_iris = X.iloc[50:150, :]
y_iris = y.iloc[50:150, :]
y_iris -= 1

In [9]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn import metrics
from sklearn.metrics import confusion_matrix

from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

def func_models_eval(_X_train, _y_train, _X_test, _y_test):

    models = {
         "LogisticRegression":SGDClassifier(loss="log", random_state=0),
        
         "SVC":SVC(gamma="auto"),

         "DecisionTree":DecisionTreeClassifier(random_state=0),
    }
    
    _df_results = pd.DataFrame()
    for model_name, model in models.items():
        model.fit(_X_train, _y_train)
        display(model.predict(_X_test))
        fpr, tpr, thresh = metrics.roc_curve(_y_test, model.predict(_X_test))
        _df_result = pd.DataFrame({model_name:[accuracy_score(_y_test, model.predict(_X_test)), 
                                           precision_score(_y_test, model.predict(_X_test), average='micro'),
                                           recall_score(_y_test, model.predict(_X_test), average='micro'),
                                           f1_score(_y_test, model.predict(_X_test), average='micro'),
                                           metrics.auc(fpr, tpr)]}, 
                                index=["accuracy_score", "precision_score", "recall_score","f1_score", "auc_score"])
        _df_results = pd.concat([_df_results, _df_result],axis=1)                        
                                
        print("{}".format(model_name))
        print(" {}".format(confusion_matrix(_y_test, model.predict(_X_test)), average='macro'))        
#        print("TRAIN_DATA")
#        decision_region(_X_train, _y_train, model, 0.01, model_name)
        print("TEST_DATA")
        decision_region(_X_test, _y_test, model, 0.01, model_name)
    return _df_results

In [10]:
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import matplotlib.patches as mpatches

def decision_region(X, y, model, step=0.01, title='decision region', xlabel='xlabel', ylabel='ylabel', target_names=['0', '1']):
    """
    2値分類を2次元の特徴量で学習したモデルの決定領域を描く。
    背景の色が学習したモデルによる推定値から描画される。
    散布図の点は訓練データまたは検証データである。

    Parameters
    ----------------
    X : ndarray, shape(n_samples, 2)
        特徴量
    y : ndarray, shape(n_samples,)
        ラベル
    model : object
        学習したモデルのインスタンスを入れる
    step : float, (default : 0.1)
        推定値を計算する間隔を設定する
    title : str
        グラフのタイトルの文章を与える
    xlabel, ylabel : str
        軸ラベルの文章を与える
    target_names= : list of str
        凡例の一覧を与える
    """
    # setting
    scatter_color = ['red', 'blue']
    contourf_color = ['pink', 'skyblue']
    n_class = 2

    # pred
    mesh_f0, mesh_f1  = np.meshgrid(np.arange(np.min(X[:,0])-0.5, np.max(X[:,0])+0.5, step), 
                                    np.arange(np.min(X[:,1])-0.5, np.max(X[:,1])+0.5, step))
    mesh = np.c_[np.ravel(mesh_f0),np.ravel(mesh_f1)]
    y_pred = model.predict(mesh).reshape(mesh_f0.shape)

    # plot
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.contourf(mesh_f0, mesh_f1, y_pred, n_class-1, cmap=ListedColormap(contourf_color))
    plt.contour(mesh_f0, mesh_f1, y_pred, n_class-1, colors='y', linewidths=3, alpha=0.5)
    for i, target in enumerate(set(y)):
        plt.scatter(X[y==target][:, 0], X[y==target][:, 1], s=80, color=scatter_color[i], label=target_names[i], marker='o')
    patches = [mpatches.Patch(color=scatter_color[i], label=target_names[i]) for i in range(n_class)]
    plt.legend(handles=patches)
    plt.legend()
    plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def src_standard_scaler(X,y):
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y)
    X_train_std = std.fit_transform(X_train)
    X_test_std = std.fit_transform(X_test)
    return X_train_std, y_train, X_test_std ,y_test

In [25]:
datasets = {
    "Iris_Dataset":[X_iris.values, y_iris.values],
#    "Simple_Dataset1":[X_data1, y_data1],
#    "Simple_Dataset2":[X_data2, y_data2]
    }
for data_name, data in datasets.items():
    X_train_std, y_train, X_test_std ,y_test = src_standard_scaler(data[0], data[1])
    print("")
    func_models_eval(X_train_std, y_train, X_test_std ,y_test)
    

array([[7. , 3.2, 4.7, 1.4],
       [6.4, 3.2, 4.5, 1.5],
       [6.9, 3.1, 4.9, 1.5],
       [5.5, 2.3, 4. , 1.3],
       [6.5, 2.8, 4.6, 1.5],
       [5.7, 2.8, 4.5, 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [4.9, 2.4, 3.3, 1. ],
       [6.6, 2.9, 4.6, 1.3],
       [5.2, 2.7, 3.9, 1.4],
       [5. , 2. , 3.5, 1. ],
       [5.9, 3. , 4.2, 1.5],
       [6. , 2.2, 4. , 1. ],
       [6.1, 2.9, 4.7, 1.4],
       [5.6, 2.9, 3.6, 1.3],
       [6.7, 3.1, 4.4, 1.4],
       [5.6, 3. , 4.5, 1.5],
       [5.8, 2.7, 4.1, 1. ],
       [6.2, 2.2, 4.5, 1.5],
       [5.6, 2.5, 3.9, 1.1],
       [5.9, 3.2, 4.8, 1.8],
       [6.1, 2.8, 4. , 1.3],
       [6.3, 2.5, 4.9, 1.5],
       [6.1, 2.8, 4.7, 1.2],
       [6.4, 2.9, 4.3, 1.3],
       [6.6, 3. , 4.4, 1.4],
       [6.8, 2.8, 4.8, 1.4],
       [6.7, 3. , 5. , 1.7],
       [6. , 2.9, 4.5, 1.5],
       [5.7, 2.6, 3.5, 1. ],
       [5.5, 2.4, 3.8, 1.1],
       [5.5, 2.4, 3.7, 1. ],
       [5.8, 2.7, 3.9, 1.2],
       [6. , 2.7, 5.1, 1.6],
       [5.4, 3