### (sprint) 機械学習入門スクラッチ
> `aim`
> + 機械学習スクラッチの準備をする
>>     【スクラッチの意義】
>>     ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、
>>     scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。
>>
>>     スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。
>>     コーディングのスキル向上も兼ねますが、それは主な目的ではありません。
>>
>>     以下のような効果を狙っています。
>>      - 新たな手法に出会った時に理論・数式を理解しやすくする
>>      - ライブラリを使う上での曖昧さを減らす
>>      - 既存の実装を読みやすくする

#### 【問題1】train_test_splitのスクラッチ
> `Cf.`
> + [sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [None]:
# DIC 雛形
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証データを分割する。
    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定
    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    
    return X_train, X_test, y_train, y_test

#### 【問題2】 分類問題を解くコードの作成
    3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

##### - 手法
    分類は3種類の手法をスクラッチします。

> + ロジスティック回帰
> + SVM
> + 決定木
> 
>     ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。
>     ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。
>     引数でloss="log"とすることでロジスティック回帰の計算になります。

> `Cf.`
> + [sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation]()
> + [sklearn.svm.SVC — scikit-learn 0.21.3 documentation]()
> + [sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation]()

##### - データセット
1. [sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation]()
2. シンプルデータセット1作成コード
> ```python
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]
> ```
3. シンプルデータセット2作成コード
> ```python
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
> ```


#### 【問題3】 回帰問題を解くコードの作成
    回帰は1種類をスクラッチします。

##### - 手法 
> + 線形回帰
>      線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。

> `Cf.`
> [sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html)

##### - データセット
> + [House Prices: Advanced Regression Techniques]()
>> train.csvをダウンロードし、目的変数として`SalePrice`、説明変数として、`GrLivArea`と`YearBuilt`を使います。