# Sprint2
## 機械学習スクラッチ入門
#### スクラッチ

ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。

スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。

以下のような効果を狙っています。

新たな手法に出会った時に理論・数式を理解しやすくする
ライブラリを使う上での曖昧さを減らす
既存の実装を読みやすくする

In [264]:
import pandas as pd
import numpy as np
import random

In [152]:
train=pd.read_csv("application_train.csv")

In [153]:
categorical_features=[]
for col in train.columns:
    if train[col].dtype=="object":
        categorical_features.append(col)

In [174]:
#補間・置換(train)
null_sum = 0
for col in train.columns:
    #欠損の補間
    null_sum = train[col].isnull().sum()
    train_length = train[col].count()
    if null_sum > 0:
        if train[col].dtype == object:
            train[col] = train[col].fillna(train[col].mode()[1])
        else:
            train[col] = train[col].fillna(train[col].mean())

In [155]:
X=train.iloc[:,2:]
y=train.iloc[:,1]

In [156]:
X_oh=pd.get_dummies(X, columns=categorical_features)

## 【問題1】train_test_splitのスクラッチ

スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。

sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation

なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

In [269]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    #ここにコードを書く
    p=np.random.permutation(len(X))
    randX, randy=X[p], y[p]
    X_train, X_test=np.vsplit(randX, [int(randX.shape[0]*train_size)])
    y_train, y_test=np.split(randy,[int(randy.size*train_size)])    
    
    return X_train, X_test, y_train, y_test

In [268]:
#関数作成のためのテスト
import numpy as np

x = np.array([[1,1,1,1],[2,2,2,2],[3,3,3,3],[4,4,4,4]])
y = np.array([1,2,3,4])
p = np.random.permutation(len(x))
x, y= x[p], y[p]
print(y)
print(x)


[3 2 4 1]
[[3 3 3 3]
 [2 2 2 2]
 [4 4 4 4]
 [1 1 1 1]]


## scikit-learnを用いて機械学習を行うコードを作成
scikit-learnを使ったコードを作成していきます。

検証用データの分割には問題1で作成した自作の関数を用いてください。クロスバリデーションではなくホールドアウト法で構いません。

分類は3種類の手法をスクラッチします。

- ロジスティック回帰
- SVM
- 決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。

In [242]:
#IRISデータロード
from sklearn.datasets import load_iris
iris=load_iris()

In [243]:
X_ir=iris.data[50:,:]
y_ir=iris.target[50:]


In [244]:
#シンプルデータセット1作成コード

np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X1 = np.concatenate((f0, f1))
y1 = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X1= X1[random_index]
y1 = y1[random_index]

In [245]:
#シンプルデータセット2作成コード
X2 = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])

y2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## 【問題2】 分類問題を解くコードの作成

上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

回帰は1種類をスクラッチします。

- 線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。

データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。

train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

In [270]:
#データの分割
#アヤメ
irX_train, irX_test, iry_train, iry_test=scratch_train_test_split(X_ir, y_ir, 0.8)
#サンプルデータ１
X1_train, X1_test, y1_train, y1_test=scratch_train_test_split(X1, y1, 0.8)
#サンプルデータ２
X2_train, X2_test, y2_train, y2_test=scratch_train_test_split(X2, y2, 0.8)

In [271]:
print(iris.data.shape)
print(X_ir.shape)
print(y_ir.shape)
print(irX_train.shape)
print(iry_train.shape)
print(irX_test.shape)
print(iry_test.shape)

(150, 4)
(100, 4)
(100,)
(80, 4)
(80,)
(20, 4)
(20,)


**ロジスティック回帰**

In [285]:
#ロジスティック回帰　アヤメデータ
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

Ir=SGDClassifier()
Ir.fit(irX_train,iry_train)
iry_pred=Ir.predict(irX_test)
ir_accuracy=accuracy_score(iry_test, iry_pred)
ir_precision=precision_score(iry_test, iry_pred)
ir_recall=recall_score(iry_test, iry_pred)
ir_f1=f1_score(iry_test, iry_pred)
ir_con_mat=confusion_matrix(iry_test, iry_pred)

print('accuracy: ', ir_accuracy)
print('precision: ', ir_precision)
print('recall: ', ir_recall)
print('f1_score: ', ir_f1)
print('confusion matrix:\n', ir_con_mat)

accuracy:  0.55
precision:  0.0
recall:  0.0
f1_score:  0.0
confusion matrix:
 [[ 0  9]
 [ 0 11]]


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


In [286]:
##ロジスティック回帰　サンプルデータ１
Ir=SGDClassifier()
Ir.fit(X1_train,y1_train)
y1_pred=Ir.predict(X1_test)

accuracy=accuracy_score(y1_test, y1_pred)
precision=precision_score(y1_test, y1_pred)
recall=recall_score(y1_test, y1_pred)
f1=f1_score(y1_test, y1_pred)
con_mat=confusion_matrix(y1_test, y1_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)

accuracy:  1.0
precision:  1.0
recall:  1.0
f1_score:  1.0
confusion matrix:
 [[49  0]
 [ 0 51]]




In [288]:
##ロジスティック回帰　サンプルデータ2
Ir=SGDClassifier()
Ir.fit(X2_train,y2_train)
y2_pred=Ir.predict(X2_test)

accuracy=accuracy_score(y2_test, y2_pred)
precision=precision_score(y2_test, y2_pred)
recall=recall_score(y2_test, y2_pred)
f1=f1_score(y2_test, y2_pred)
con_mat=confusion_matrix(y2_test, y2_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)

accuracy:  0.625
precision:  0.3333333333333333
recall:  0.5
f1_score:  0.4
confusion matrix:
 [[4 2]
 [1 1]]




**SVM**

In [204]:
irX_train.shape

(80, 4)

In [315]:
#SVM　アヤメデータ
from sklearn.svm import SVC
Sv=SVC()
Sv.fit(irX_train, iry_train)
iry_pred=Sv.predict(irX_test)

ir_accuracy=accuracy_score(iry_test, iry_pred)
ir_precision=precision_score(iry_test, iry_pred)
ir_recall=recall_score(iry_test, iry_pred)
ir_f1=f1_score(iry_test, iry_pred)
ir_con_mat=confusion_matrix(iry_test, iry_pred)

print('accuracy: ', ir_accuracy)
print('precision: ', ir_precision)
print('recall: ', ir_recall)
print('f1_score: ', ir_f1)
print('confusion matrix:\n', ir_con_mat)

accuracy:  1.0
precision:  1.0
recall:  1.0
f1_score:  1.0
confusion matrix:
 [[ 9  0]
 [ 0 11]]




In [314]:
#SVC サンプルデータ１
Sv.fit(X1_train,y1_train)
y1_pred=Sv.predict(X1_test)

accuracy=accuracy_score(y1_test, y1_pred)
precision=precision_score(y1_test, y1_pred)
recall=recall_score(y1_test, y1_pred)
f1=f1_score(y1_test, y1_pred)
con_mat=confusion_matrix(y1_test, y1_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)

accuracy:  1.0
precision:  1.0
recall:  1.0
f1_score:  1.0
confusion matrix:
 [[49  0]
 [ 0 51]]




In [293]:
#SVC サンプルデータ２

Sv.fit(X2_train,y2_train)
y2_pred=Sv.predict(X2_test)

accuracy=accuracy_score(y2_test, y2_pred)
precision=precision_score(y2_test, y2_pred)
recall=recall_score(y2_test, y2_pred)
f1=f1_score(y2_test, y2_pred)
con_mat=confusion_matrix(y2_test, y2_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)


accuracy:  0.75
precision:  0.5
recall:  1.0
f1_score:  0.6666666666666666
confusion matrix:
 [[4 2]
 [0 2]]




In [295]:
#決定木　アヤメデータ
from sklearn.tree import DecisionTreeClassifier
Tr=DecisionTreeClassifier()
Tr.fit(irX_train,iry_train)
iry_pred=Tr.predict(irX_test)

ir_accuracy=accuracy_score(iry_test,iry_pred)
ir_precision=precision_score(iry_test,iry_pred)
ir_recall=recall_score(iry_test,iry_pred)
ir_f1=f1_score(iry_test,iry_pred)
con_mat=confusion_matrix(iry_test,iry_pred)

print('accuracy: ', ir_accuracy)
print('precision: ', ir_precision)
print('recall: ', ir_recall)
print('f1_score: ', ir_f1)
print('confusion matrix:\n', ir_con_mat)

accuracy:  1.0
precision:  1.0
recall:  1.0
f1_score:  1.0
confusion matrix:
 [[ 9  0]
 [ 0 11]]


In [313]:
#決定木　サンプルデータ１
Tr.fit(X1_train,y1_train)
y1_pred=Tr.predict(X1_test)

accuracy=accuracy_score(y1_test, y1_pred)
precision=precision_score(y1_test, y1_pred)
recall=recall_score(y1_test, y1_pred)
f1=f1_score(y1_test, y1_pred)
con_mat=confusion_matrix(y1_test, y1_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)

accuracy:  1.0
precision:  1.0
recall:  1.0
f1_score:  1.0
confusion matrix:
 [[49  0]
 [ 0 51]]


In [312]:
#決定木　サンプルデータ２
Tr.fit(X2_train,y2_train)
y2_pred=Tr.predict(X2_test)

accuracy=accuracy_score(y2_test, y2_pred)
precision=precision_score(y2_test, y2_pred)
recall=recall_score(y2_test, y2_pred)
f1=f1_score(y2_test, y2_pred)
con_mat=confusion_matrix(y2_test, y2_pred)

print('accuracy: ', accuracy)
print('precision: ', precision)
print('recall: ', recall)
print('f1_score: ', f1)
print('confusion matrix:\n', con_mat)


accuracy:  0.625
precision:  0.3333333333333333
recall:  0.5
f1_score:  0.4
confusion matrix:
 [[4 2]
 [1 1]]


## 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。c

In [309]:
#線形回帰　アヤメデータ
from sklearn.linear_model import SGDRegressor
Sg=SGDRegressor()
Sg.fit(irX_train, iry_train)
iry_pred=Sg.predict(irX_test)

#平均二乗誤差
from sklearn.metrics import mean_squared_error
lin_mse=mean_squared_error(iry_test, iry_pred)
print('平均２乗誤差: ', lin_mse)

平均２乗誤差:  0.09883197736175058




In [310]:
#線形回帰　サンプルデータ１
Sg.fit(X1_train, y1_train)
y1_pred=Sg.predict(X1_test)

#平均二乗誤差
lin_mse=mean_squared_error(y1_test,y1_pred)
print("平均二乗誤差",lin_mse)

平均二乗誤差 0.03834642479125914




In [311]:
#線形回帰　サンプルデータ２
Sg.fit(X2_train, y2_train)
y2_pred=Sg.predict(X2_test)

#平均二乗誤差
lin_mse=mean_squared_error(y2_test,y2_pred)
print("平均二乗誤差",lin_mse)

平均二乗誤差 0.21863978299683934


