## 【問題1】train_test_splitのスクラッチ

スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。

[sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

## 【確認】

* train_test_split関数はscikit-learnライブラリ内にある一関数である。
* データの前処理の一環として利用する。
* 訓練データと検証データに指定した割合にランダムで分割する。
* Xとyの配列を変数とし、Xとyの訓練データと検証データをそれぞれ出力する。

In [6]:
import random
import numpy as np

def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    
    Process
    ----------
    1. Randomizing
        1. Using np.random.shuffle(), shuffle the two arrays.
        2. Make pre_shuffle_x, pre_shuffle_y, post_shuffle_x, post_shuffle_y.

    2. Dividing (Default: test_size 0.25, train_size 0.75)
        1. Using this [tactics](https://stackoverflow.com/questions/58374049/split-a-list-with-a-adjustable-ratio) to split a list.
        2. Make 2 splitted lists for train and test for each x and y
    3. Return
        1. Return value.
    
    """
    # Cast into np
    # np.array(X)
    # np.array(y)
    
    # Intake parameter X, y and shuffle them.
    np.random.shuffle(X)
    np.random.shuffle(y)
    
    # Split X and y into given ratio.
    elements_x = len(X)
    middle_x = int(elements_x * train_size)
    X_train, X_test = X[:middle_x], X[middle_x:]
    # print(x_train, x_test)

    elements_y = len(y)
    middle_y = int(elements_y * (train_size))
    y_train, y_test = y[:middle_y], y[middle_y:]
    
    return X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y)

## 【確認】

In [None]:
# 仮データ
X, y = np.arange(10).reshape((5, 2)), [1, 2, 3, 4, 5]
X, y

In [None]:
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y)
print("返り値 X_trainは\n{}".format(X_train))
print("返り値 X_testは{}".format(X_test))
print("返り値 y_trainは{}".format(y_train))
print("返り値 y_testは{}".format(y_test)) 

## 【問題2】 分類問題を解くコードの作成

1. ロジスティック回帰（SGDClassifier）を用い、3種類のデータセットを学習・推定するコードを作成する。
2. SVMを用い、3種類のデータセットを学習・推定するコードを作成する。
3. 決定木を用い、3種類のデータセットを学習・推定するコードを作成する。
4. 線形回帰をスクラッチする。
    * House Pricesコンペティションのデータセットを利用する。
        * train.csvをダウンロード。
        * 目的変数：SalePrice
        * 説明変数：GrLivArea, YearBuilt
    * SGDRegressorクラスを利用する。

## 【準備】3種類のデータセットを用意する。

In [37]:
# Irisデータセット

from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris = load_iris()

# 基データから特定の全種の特徴量を抽出。
iris_raw_data = pd.DataFrame(iris.data, columns=iris.feature_names)
#iris_data = iris_raw_data[['sepal length (cm)', 'petal length (cm)']]

# 基データから特定の2品種のみを抽出。
iris_raw_species = pd.DataFrame(iris.target, columns=["species"])
iris_species = iris_raw_species[iris_raw_species['species'].isin([1, 2])]

# 上記2つのデータを結合させる。
iris_df = pd.concat([iris_raw_data, iris_species], join='inner', axis=1)

X_iris = np.array(iris_df.iloc[:, :4])
y_iris = np.array(iris_df.iloc[:, 4:5])

In [24]:
# シンプルデータセット１

import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X_simple1 = X[random_index]
y_simple1 = y[random_index]

In [22]:
# シンプルデータセット２

X_simple2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y_simple2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## 【解答2_1】ロジスティック回帰による学習・推定までのコード

## 【解答2_1_1】関数構築

In [17]:
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline


def logistic_regression(X, y, train_size=0.8):
    """
    ロジスティック回帰による学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SGDClassifierを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # Process_1 scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # Process_2 StandardScalerを用いてX_trainを標準化する。(pipelineを用いての省略も可)
    sc = StandardScaler()
        # 平均値と標準偏差値の算出
    sc.fit(X_train)
    
        # 標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)
    
    # Process_3 SGDCLassifierを用いて学習する。
    lr = SGDClassifier(loss='log')
    lr.fit(X_train_std, y_train)
    
    # Process_4 fit後の推定(predict)を行う。
    predicted_test = lr.predict(X_test_std)
    
    return predicted_test

## 【解答2_1_2】Irisデータセットを用いての検証

In [39]:
logistic_regression(X_iris, y_iris, 0.8)

array([2, 2, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1, 1, 2, 2, 1, 1, 1, 2])

## 【解答2_1_3】シンプルデータセット1を用いての検証

In [26]:
logistic_regression(X_simple1, y_simple1, 0.8)

array([ 1,  1,  1, -1,  1, -1,  1, -1,  1, -1, -1,  1, -1,  1,  1, -1,  1,
       -1,  1,  1, -1, -1,  1,  1, -1, -1,  1,  1, -1, -1, -1, -1,  1, -1,
       -1,  1, -1,  1, -1,  1,  1, -1,  1,  1, -1,  1, -1,  1, -1,  1,  1,
       -1,  1,  1, -1,  1, -1,  1,  1, -1,  1,  1,  1, -1,  1, -1, -1,  1,
        1, -1,  1, -1,  1,  1,  1, -1, -1, -1,  1, -1, -1, -1,  1,  1, -1,
        1, -1, -1,  1,  1, -1,  1, -1, -1,  1, -1, -1,  1,  1,  1])

## 【解答2_1_4】シンプルデータ2を用いての検証

In [27]:
logistic_regression(X_simple2, y_simple2, 0.8)

array([1, 1, 1, 1, 1, 1, 1, 1])

## 【解答2_2】SVMによる学習・推定までのコード

## 【解答2_2_1】関数構築

In [32]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

def svm_function (X, y, train_size):
    """
    SVMによる学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SVCを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # Process_1 scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # Process_2 StandardScalerを用いてX_trainを標準化する。(pipelineを用いての省略も可)
    sc = StandardScaler()
        # 平均値と標準偏差値の算出
    sc.fit(X_train)
    
        # 標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)
    
    # Process_3 SVCを用いて学習する。
    model = SVC(gamma='scale')
    model.fit(X_train_std, y_train)
    
    # Process_4 fit後の推定(predict)を行う。
    predicted_test = model.predict(X_test_std)
    
    return predicted_test

## 【解答2_2_2】Irisデータセットを用いての検証

In [40]:
svm_function(X_iris, y_iris, 0.8)

array([1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 2, 1])

## 【解答2_2_3】シンプルデータセット1を用いての検証

In [35]:
svm_function(X_simple1, y_simple1, 0.8)

array([ 1,  1,  1,  1,  1, -1,  1, -1,  1, -1,  1,  1,  1, -1, -1,  1, -1,
       -1, -1, -1, -1, -1,  1, -1, -1, -1, -1, -1,  1,  1, -1,  1, -1, -1,
       -1, -1,  1, -1, -1, -1, -1,  1, -1,  1, -1, -1,  1, -1, -1,  1, -1,
       -1, -1, -1, -1, -1,  1, -1,  1,  1,  1,  1, -1, -1, -1, -1, -1, -1,
       -1, -1,  1, -1, -1, -1,  1, -1, -1, -1,  1, -1, -1,  1,  1, -1,  1,
       -1,  1, -1, -1,  1, -1, -1, -1, -1, -1,  1, -1,  1,  1,  1])

## 【解答2_2_4】シンプルデータ2を用いての検証

In [36]:
svm_function(X_simple2, y_simple2, 0.8)

array([0, 1, 0, 0, 0, 1, 0, 0])

## 【解答2_3】決定木による学習・推定までのコード

## 【解答2_3_1】関数構築

In [59]:
from sklearn import tree

def tree_function (X, y, z):
    """
    決定木による学習・推定まで行う。


    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    z : 木の深さ
    
    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. tree.DecisionTreeClassifierを用いて学習する。
    2. predictを用いて推定する。
    
    """    
    # Process_1 treeを用いて学習する。
    clf = tree.DecisionTreeClassifier(max_depth=z)
    clf.fit(X, y)
    
    # Process_1 fit後の推定(predict)を行う。
    predicted_test = clf.predict(X)
    
    return predicted_test

## 【解答2_3_2】Irisデータセットを用いての検証

In [60]:
tree_function(X_iris, y_iris, 3)

array([2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 1, 2, 2, 1, 1, 1, 1, 2,
       1, 2, 2, 2, 1, 2, 1, 1, 2, 2, 2, 2, 2, 2, 1, 2, 1, 1, 2, 2, 1, 2,
       1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1,
       2, 1, 2, 2, 2, 2, 1, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1, 2, 2, 1, 2, 2,
       2, 1, 2, 2, 2, 1, 2, 1, 2, 1, 1, 2])

## 【解答2_3_3】シンプルデータセット1を用いての検証¶

In [61]:
tree_function(X_simple1, y_simple1, 3)

array([ 1,  1, -1,  1,  1, -1, -1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,
        1, -1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1, -1,  1,
        1,  1, -1, -1,  1, -1, -1,  1,  1,  1, -1,  1,  1,  1,  1,  1, -1,
       -1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,  1,  1, -1, -1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1, -1, -1,  1,  1,  1,  1,
       -1,  1,  1,  1,  1, -1,  1,  1, -1,  1, -1,  1,  1,  1, -1,  1,  1,
        1, -1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1, -1,
       -1, -1,  1,  1,  1, -1, -1, -1,  1,  1, -1,  1, -1,  1,  1,  1,  1,
        1, -1,  1,  1,  1, -1,  1, -1,  1,  1,  1,  1, -1,  1, -1,  1,  1,
        1, -1, -1,  1,  1,  1,  1,  1, -1, -1,  1, -1,  1,  1,  1, -1, -1,
       -1,  1,  1,  1,  1, -1,  1, -1, -1, -1,  1,  1, -1,  1,  1,  1,  1,
       -1,  1, -1,  1,  1,  1, -1,  1, -1, -1,  1,  1, -1,  1,  1,  1,  1,
        1,  1, -1, -1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1,  1,  1, -1,
       -1,  1,  1, -1, -1

## 【解答2_3_4】シンプルデータセット2を用いての検証

In [62]:
tree_function(X_simple2, y_simple2, 3)

array([1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0])

## 【問題3】 回帰問題を解くコードの作成

線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

## 【解答3_4_1】データセットを用意する

In [98]:
# sklearn preprocessing for dealing with categorical variables
from sklearn.preprocessing import LabelEncoder

# File system manangement
import os

house_df = pd.read_csv('../../HousePrices_train.csv')

# 目的変数
y_house = np.array(house_df.loc[:, ['SalePrice']])

# 説明変数
X_house = np.array(house_df.loc[:, ['GrLivArea', 'YearBuilt']])

## 【解答3_4_2】関数構築

In [105]:
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline


def linear_regression(X, y, train_size=0.8):
    """
    線形回帰による学習・推定まで行う。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    predicted_test : ndarray, shape ()
    　標準化済みの検証用データ（X_test_std）を用いての推定値
    　以降の一致率検証用に用いる。
    
    Process
    ----------
    1. 交差検定を行うために、関数scratch_train_test_splitを用いてデータセットを分割する。
    2. StandardScalerを用いて学習用データの特徴量を標準化する。
    3. SGDClassifierを用いて学習する。
    4. predictを用いて推定する。
    
    """    
    # Process_1 scratch_train_test_split関数を用いてデータセットを分割する。
    X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size)
    
    # 目的変数の1次元化
    y_train = np.reshape(y_train,(-1))
    y_test = np.reshape(y_test,(-1))
    
    # Process_2 StandardScalerを用いてX_trainを標準化する。(pipelineを用いての省略も可)
    sc = StandardScaler()
        # 平均値と標準偏差値の算出
    sc.fit(X_train)
    
        # 標準化
    X_train_std = sc.transform(X_train)
    X_test_std = sc.transform(X_test)
    
    # Process_3 SGDCLassifierを用いて学習する。
    reg = SGDRegressor(max_iter=1000)
    reg.fit(X_train_std, y_train)
    
    # Process_4 fit後の推定(predict)を行う。
    predicted_test = reg.predict(X_test_std)
    
    return predicted_test

In [107]:
linear_regression(X_house, y_house, 0.8)

array([183342.31739127, 187235.42081144, 186029.89104747, 174551.33864729,
       183633.56479899, 185035.38540191, 179629.30492231, 182364.56769937,
       176565.75751792, 185713.89535242, 184510.17304226, 178043.0159421 ,
       172633.00210822, 175987.75212268, 179230.02709626, 175184.89987197,
       180729.24861511, 181817.36984623, 181547.15259196, 184572.81066297,
       180947.82099541, 188468.67687698, 187719.81062112, 174530.3532915 ,
       187631.25415263, 177920.52589335, 185658.14670142, 181680.27214313,
       182123.03208671, 180657.89217207, 176823.02654772, 176453.60092372,
       183751.46220127, 187983.45735236, 185638.79837667, 177781.47271252,
       181795.40675156, 168920.11526437, 169622.88463277, 182428.33108288,
       177189.68937787, 180580.5212719 , 177905.11092289, 181550.40425523,
       177867.22158951, 184809.41278365, 188849.09524772, 185810.14810673,
       183879.18178986, 174642.50988569, 188193.69655349, 184452.93538413,
       173081.94693168, 1