 # Sprint課題　機械学習スクラッチ入門

## 目的  
機械学習スクラッチの準備をする  
  
## どのように学ぶか   
今後の機械学習スクラッチ課題で作成するモデルを、scikit-learnを用いて一度動かしておきます。これまでの復習を兼ねたスクラッチ課題の準備です。


## スクラッチ  
このSprintでは機械学習手法のスクラッチ課題に取り組む準備を行います。scikit-learnを用いて分類・回帰問題を解くコードを書いておき、今後のSprintではそれと同じ動作をするクラスをスクラッチで作成していきます。  
  
スクラッチの意義  
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。  
スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。  
以下のような効果を狙っています。  
・新たな手法に出会った時に理論・数式を理解しやすくする  
・ライブラリを使う上での曖昧さを減らす  
・既存の実装を読みやすくする  

### 【問題1】train_test_splitのスクラッチ  
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。
[sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)  
なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

**雛形**  
def scratch_train_test_split(X, y, train_size=0.8,):  
    """  
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く
    pass

    return X_train, X_test, y_train, y_test

In [1]:
# ライブラリのインポート
from sklearn.datasets import load_iris
from sklearn import linear_model
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
def scratch_train_test_split(X, y, test_size=0.2):
    """
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定
      要素数に端数が生じた場合は切り捨てにする。

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    
    # 受け取った配列のサイズを調べる
    #print(X.size)
    size_arry_X = X.shape[0]
    #print(arry_size_X)
    
    size_arry_y = y.shape[0]
    
    #Xとyのサイズが合っているかチェックする
    #サイズが合っていなかったら、エラーとする
    # tryに書き直す？
    assert size_arry_X == size_arry_y, "X and y are not same size."
    
    # サイズが合っていたら、インデックスを要素とした配列を作る
    index_arry = np.arange(size_arry_X)
    #print(index_arry)
    
    #train_size掛ける要素数だけ、インデックスをランダムにポップする。ポップしたインデックスを格納する。
    train_size_int = int(size_arry_X * (1 - test_size))
    #print(np.random.choice(index_arry, train_size_int, replace=False))
    index_train = np.random.choice(index_arry, train_size_int, replace=False)
    
    # trainにないインデックスをtestに振る
    index_test_boolean = np.ones(size_arry_X, dtype=bool)
    index_test_boolean[index_train] = False
    
    #格納されたインデックスのX、yをX_train, y_trainとする
    X_train, y_train = X[index_train], y[index_train]
    
    
    # ポップしたインデックスにないものをX_test、y_testとする
    X_test, y_test = X[index_test_boolean], y[index_test_boolean]
    
    return X_train, X_test, y_train, y_test

In [3]:
# 検証
arry_test_X = np.array([0, 1, 2, 3, 4, 5])
print(arry_test_X)
arry_test_y = np.array([0, 0, 1, 1, 2, 2])

[0 1 2 3 4 5]


In [4]:
scratch_train_test_split(arry_test_X, arry_test_y)

(array([5, 4, 3, 2]), array([0, 1]), array([2, 2, 1, 1]), array([0, 0]))

### scikit-learnを用いて機械学習を行うコードを作成

In [5]:
import numpy as np

np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [6]:
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

### 【問題2】 分類問題を解くコードの作成

#### irisデータセット

In [7]:
# データセットの読み込み
dataset_path = "Iris.csv"
df = pd.read_csv(dataset_path)
# データフレームから条件抽出
df = df[(df["Species"] == "Iris-versicolor") |
        (df["Species"] == "Iris-virginica")]
y = df["Species"]
X = df.loc[:, ["SepalLengthCm", "SepalWidthCm",
               "PetalLengthCm", "PetalWidthCm"]]
y = np.array(y)
X = np.array(X)
# ラベルを数値に変換
y[y == 'Iris-versicolor'] = 0
y[y == 'Iris-virginica'] = 1
y = y.astype(np.int)[:, np.newaxis]

# trainとtestに分割
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, test_size=0.2)


In [8]:
X_train.shape, y_train.shape

((80, 4), (80, 1))

#### ロジスティック回帰

In [9]:
clf = linear_model.SGDClassifier(max_iter=30, tol=0.001, loss="log")
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

  y = column_or_1d(y, warn=True)


In [10]:
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train[:, 0], y_pred_train).astype(np.int))/y_train.shape[0]
train_acc

0.975

In [11]:
test_acc = np.sum(np.equal(y_test[:, 0], y_pred).astype(np.int))/y_test.shape[0]
test_acc

0.95

In [12]:
accuracy_score(y_test, y_pred)

0.95

In [13]:
# trainとtestに分割
X_train_sk, X_test_sk, y_train_sk, y_test_sk = train_test_split(
    X, y, test_size=0.2, random_state=0)

In [14]:
clf = linear_model.SGDClassifier(max_iter=30, tol=0.001, loss='log')
clf.fit(X_train_sk, y_train_sk)
y_pred_sk = clf.predict(X_test_sk)

  y = column_or_1d(y, warn=True)


In [15]:
y_pred_train_sk = clf.predict(X_train_sk)
train_acc_sk = np.sum(np.equal(y_train_sk[:, 0], y_pred_train_sk).astype(np.int))/y_train_sk.shape[0]
train_acc_sk

1.0

In [16]:
test_acc_sk = np.sum(np.equal(y_test_sk[:, 0], y_pred_sk).astype(np.int))/y_test_sk.shape[0]
test_acc_sk

0.9

#### SVC

In [17]:
clf = SVC(gamma='auto')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

  y = column_or_1d(y, warn=True)


In [18]:
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train[:, 0], y_pred_train).astype(np.int))/y_train.shape[0]
train_acc

0.9875

In [19]:
test_acc = np.sum(np.equal(y_test[:, 0], y_pred).astype(np.int))/y_test.shape[0]
test_acc

0.95

#### 決定木

In [20]:
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [21]:
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train[:, 0], y_pred_train).astype(np.int))/y_train.shape[0]
train_acc

1.0

In [22]:
test_acc = np.sum(np.equal(y_test[:, 0], y_pred).astype(np.int))/y_test.shape[0]
test_acc

0.95

#### シンプルデータセット1

In [23]:
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [24]:
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, test_size=0.2)

#### ロジスティック回帰

In [25]:
clf = linear_model.SGDClassifier(max_iter=30, tol=0.001, loss="log")
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [26]:
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
train_acc

1.0

In [27]:
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
test_acc

1.0

#### SVC

In [28]:
clf = SVC(gamma='auto')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [29]:
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
train_acc

1.0

In [30]:
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
test_acc

1.0

#### 決定木

In [31]:
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
print('train_acc',train_acc)
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
print('test_acc',test_acc)

train_acc 1.0
test_acc 1.0


#### シンプルデータセット2

In [32]:
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [33]:
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, test_size=0.2)

#### ロジスティック回帰

In [34]:
clf = linear_model.SGDClassifier(max_iter=300, tol=0.001, loss="log")
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
print('train_acc',train_acc)
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
print('test_acc',test_acc)

train_acc 0.40625
test_acc 0.375


#### SVC

In [35]:
clf = SVC(gamma='auto')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
print('train_acc',train_acc)
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
print('test_acc',test_acc)

train_acc 0.90625
test_acc 0.375


#### 決定木

In [36]:
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
y_pred_train = clf.predict(X_train)
train_acc = np.sum(np.equal(y_train, y_pred_train).astype(np.int))/y_train.shape[0]
print('train_acc',train_acc)
test_acc = np.sum(np.equal(y_test, y_pred).astype(np.int))/y_test.shape[0]
print('test_acc',test_acc)

train_acc 1.0
test_acc 0.5


#### 【問題3】 回帰問題を解くコードの作成

In [37]:
# データセットの読み込み
dataset_path = "train.csv"
df = pd.read_csv(dataset_path)


y = df["SalePrice"]
X = df.loc[:, ["GrLivArea", "YearBuilt"]]
y = np.array(y).reshape((-1, 1))
X = np.array(X)

#対数変換
y = np.log10(y)

# trainとtestに分割
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=0)
# 標準化
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# さらにtrainとvalに分割
X_train, X_val, y_train, y_val = scratch_train_test_split(
    X_train, y_train, test_size=0.2)

In [38]:
model= linear_model.SGDRegressor(max_iter=1000, tol=1e-3)
model.fit(X_train, y_train)
y_pred = clf.predict(X_test)

  y = column_or_1d(y, warn=True)


In [39]:
mean_squared_error(y_test, y_pred)  

24.997109631065474