機械学習スクラッチ入門

【問題1】train_test_split のスクラッチ

In [63]:
def scratch_train_test_split(X, y, train_size=0.8):
    """検証データを分割する。
    Parameters
    ----------
    X : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    X_train : ndarray
      訓練データ (n_samples, n_features)
    X_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    """
    import numpy as np
    xy=np.concatenate([X, y],axis=1)
    np.random.shuffle(xy)
    split_number=round(len(xy)*train_size)
    train=xy[0:split_number,:]
    test=xy[split_number:,:]
    X_train=train[:,:train.shape[1]-1]
    y_train=train[:,-1]
    X_test=test[:,:test.shape[1]-1]
    y_test=test[:,-1]    
    
    return X_train, X_test, y_train, y_test

In [64]:
# 実際にできているか実行を行う
#　サンプルはアヤメで確認

from sklearn.datasets import load_iris
iris = load_iris()
import pandas as pd
data1=pd.DataFrame(iris.data,columns=iris.feature_names)
data2=pd.DataFrame(iris.target,columns=["Species"])


In [65]:
# data1がアヤメの特徴量　data2がラベルである
# scratch_train_test_splitを試してみる
#　無事に実行できていることが確認できた

scratch_train_test_split(data1,data2,train_size=0.8)

(array([[5.4, 3.4, 1.7, 0.2],
        [5.4, 3.9, 1.3, 0.4],
        [7.7, 2.8, 6.7, 2. ],
        [5.8, 2.7, 4.1, 1. ],
        [6. , 2.7, 5.1, 1.6],
        [6.1, 2.8, 4. , 1.3],
        [5.1, 3.3, 1.7, 0.5],
        [5.8, 2.7, 3.9, 1.2],
        [5.7, 3. , 4.2, 1.2],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 2.6, 3.5, 1. ],
        [5.5, 3.5, 1.3, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [5.1, 3.4, 1.5, 0.2],
        [7.4, 2.8, 6.1, 1.9],
        [6.1, 2.9, 4.7, 1.4],
        [5.7, 2.8, 4.5, 1.3],
        [7.2, 3.6, 6.1, 2.5],
        [6.7, 3. , 5.2, 2.3],
        [4.9, 3. , 1.4, 0.2],
        [5. , 3.3, 1.4, 0.2],
        [6.1, 3. , 4.6, 1.4],
        [6. , 3.4, 4.5, 1.6],
        [6.8, 3.2, 5.9, 2.3],
        [6.5, 3. , 5.2, 2. ],
        [4.9, 2.4, 3.3, 1. ],
        [6.4, 3.2, 5.3, 2.3],
        [4.6, 3.2, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [7.7, 2.6, 6.9, 2.3],
        [7.1, 3. , 5.9, 2.1],
        [6.2, 2.2, 4.5, 1.5],
        [4.9, 3.1, 1.5, 0.1],
        [5

scikit-learnを用いて機械学習を行うコードの実装

分類問題

ロジスティック回帰、SVM、決定木の実装を行う

先に３つ実装を行い、その後【問題２】を行う

＜ロジスティック回帰＞のscikit-learnを使っての実装

In [120]:
# ロジスティック回帰の実装として「logistic_func」という関数を作成
def logistic_func(X, y, train_size=0.8):
    """検証データを分割する。
    Parameters
    ----------
    X : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    X_train : ndarray
      訓練データ (n_samples, n_features)
    X_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    model : object
        学習したモデルのインスンタス    
    """
    
    import numpy as np
    xy=np.concatenate([X, y],axis=1)
    np.random.shuffle(xy)
    split_number=round(len(xy)*train_size)
    train=xy[0:split_number,:]
    test=xy[split_number:,:]
    X_train=train[:,:train.shape[1]-1]
    y_train=train[:,-1]
    X_test=test[:,:test.shape[1]-1]
    y_test=test[:,-1]  
    
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train=scaler.transform(X_train)
    X_test=scaler.transform(X_test)
    
    from sklearn.linear_model import SGDClassifier
    clf = SGDClassifier(loss='log')
    clf.fit(X_train,y_train)
    
    return X_train, X_test, y_train, y_test,clf

In [121]:
a,b,c,d,e=logistic_func(data1,data2,train_size=0.8)

＜SVM＞のscikit-learnを使っての実装

In [71]:
# SVMの実装として「SVM_func」という関数を作成

def SVM_func(X, y, train_size=0.8):
    """検証データを分割する。
    Parameters
    ----------
    X : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    X_train : ndarray
      訓練データ (n_samples, n_features)
    X_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    model : object
        学習したモデルのインスンタス    
    """
    
    import numpy as np
    xy=np.concatenate([X, y],axis=1)
    np.random.shuffle(xy)
    split_number=round(len(xy)*train_size)
    train=xy[0:split_number,:]
    test=xy[split_number:,:]
    X_train=train[:,:train.shape[1]-1]
    y_train=train[:,-1]
    X_test=test[:,:test.shape[1]-1]
    y_test=test[:,-1]  
    
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train=scaler.transform(X_train)
    X_test=scaler.transform(X_test)
    
    from sklearn.pipeline import make_pipeline
    from sklearn.svm import SVC
    clfsvm = make_pipeline(StandardScaler(), SVC(gamma='auto'))
    clfsvm.fit(X_train,y_train)
    
    return X_train,X_test,y_train,y_test,clfsvm

In [72]:
a,b,c,d,e=SVM_func(data1,data2,train_size=0.8)

＜決定木＞のscikit-learnを使っての実装

In [75]:
# 決定木の実装として「tree_func」という関数を作成

def tree_func(X, y, train_size=0.8):
    """検証データを分割する。
    Parameters
    ----------
    X : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    X_train : ndarray
      訓練データ (n_samples, n_features)
    X_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    model : object
        学習したモデルのインスンタス    
    """
    
    import numpy as np
    xy=np.concatenate([X, y],axis=1)
    np.random.shuffle(xy)
    split_number=round(len(xy)*train_size)
    train=xy[0:split_number,:]
    test=xy[split_number:,:]
    X_train=train[:,:train.shape[1]-1]
    y_train=train[:,-1]
    X_test=test[:,:test.shape[1]-1]
    y_test=test[:,-1]  
    
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train=scaler.transform(X_train)
    X_test=scaler.transform(X_test)
    
    from sklearn.model_selection import cross_val_score
    from sklearn.tree import DecisionTreeClassifier
    clftree = DecisionTreeClassifier(random_state=0)
    clftree.fit(X_train,y_train)
    
    return X_train,X_test,y_train,y_test,clftree

In [76]:
a,b,c,d,e=tree_func(data1,data2,train_size=0.8)

【問題2】 分類問題を解くコードの作成

In [103]:
# ３種類のデータを揃える

# irisデータセット
data_a=iris.data[50:150,:]
data_b=iris.target[50:150]

In [115]:
# シンプルデータセット1
# 変数名は区別するためX1とy1とする

import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, n_samples // 2)
f1 = np.random.multivariate_normal(f1, cov, n_samples // 2)
X1 = np.concatenate([f0, f1])
y1 = np.concatenate([
    np.full(n_samples // 2, 1),
    np.full(n_samples // 2, -1)
])

In [117]:
# シンプルデータセット2
# 変数名は区別するためX2とy2とする

X2 = np.array([
    [-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
    [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
    [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
    [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
    [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
    [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
    [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
    [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
    [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
    [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
    [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
    [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
    [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
    [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
    [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
    [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
    [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
    [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
    [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
    [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ],
])
y2 = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

＜ロジスティック回帰＞で学習させ推定を行う

In [167]:
# irisデータセットの場合　data_aが特徴量　data_bが目的変数
# 関数を使い学習
data_b=data_b.reshape(len(data_b),1)
a,b,c,d,e=logistic_func(data_a,data_b,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

0.9

In [168]:
# シンプルデータセット1の場合　X1が特徴量　y1が目的変数
# 関数を使い学習
y1=y1.reshape(len(y1),1)
a,b,c,d,e=logistic_func(X1,y1,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

1.0

In [169]:
# シンプルデータセット2の場合　X2が特徴量　y2が目的変数
# 関数を使い学習
y2=y2.reshape(len(y2),1)
a,b,c,d,e=logistic_func(X2,y2,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

0.25

＜SVM＞で学習させ推定を行う

In [170]:
# irisデータセットの場合　data_aが特徴量　data_bが目的変数
# 関数を使い学習
data_b=data_b.reshape(len(data_b),1)
a,b,c,d,e=SVM_func(data_a,data_b,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

1.0

In [171]:
# シンプルデータセット1の場合　X1が特徴量　y1が目的変数
# 関数を使い学習

y1=y1.reshape(len(y1),1)
a,b,c,d,e=SVM_func(X1,y1,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

1.0

In [172]:
# シンプルデータセット2の場合　X2が特徴量　y2が目的変数
# 関数を使い学習

y2=y2.reshape(len(y2),1)
a,b,c,d,e=SVM_func(X2,y2,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)
# Accuracy（正解率）

from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

0.625

＜決定木＞で学習させ推定を行う

In [180]:
# irisデータセットの場合　data_aが特徴量　data_bが目的変数
# 関数を使い学習
data_b=data_b.reshape(len(data_b),1)
a,b,c,d,e=tree_func(data_a,data_b,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)

# Accuracy（正解率）
from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

0.95

In [179]:
# シンプルデータセット1の場合　X1が特徴量　y1が目的変数
# 関数を使い学習

y1=y1.reshape(len(y1),1)
a,b,c,d,e=tree_func(X1,y1,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)

# Accuracy（正解率）
from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

1.0

In [178]:
# シンプルデータセット2の場合　X2が特徴量　y2が目的変数
# 関数を使い学習

y2=y2.reshape(len(y2),1)
a,b,c,d,e=tree_func(X2,y2,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)

# Accuracy（正解率）
from sklearn.metrics import accuracy_score
accuracy_score(d,y_pred)

0.375

回帰問題

まず線形回帰のscikit-learnを使った実装を行う、その後問題３を解く

In [151]:
# ここまでと同様にscratch_train_test_splitを使用しtrain_size=0.8とする
# 関数名はlinear_funcとする

def linear_func(X, y, train_size=0.8):
    """検証データを分割する。
    Parameters
    ----------
    X : ndarray
      訓練データ (n_samples, n_features)
    y : ndarray
      正解値 (n_samples,)
    train_size : float
      何割をtrainとするか指定 (0 < train_size < 1)
    Returns
    -------
    X_train : ndarray
      訓練データ (n_samples, n_features)
    X_test : ndarray
      検証データ (n_samples, n_features)
    y_train : ndarray
      訓練データの正解値 (n_samples,)
    y_test : ndarray
      検証データの正解値 (n_samples,)
    model : object
        学習したモデルのインスンタス    
    """
    
    import numpy as np
    xy=np.concatenate([X, y],axis=1)
    np.random.shuffle(xy)
    split_number=round(len(xy)*train_size)
    train=xy[0:split_number,:]
    test=xy[split_number:,:]
    X_train=train[:,:train.shape[1]-1]
    y_train=train[:,-1]
    X_test=test[:,:test.shape[1]-1]
    y_test=test[:,-1]  
    
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train=scaler.transform(X_train)
    X_test=scaler.transform(X_test)
    
    from sklearn.linear_model import SGDRegressor
    reg = SGDRegressor()
    reg.fit(X_train,y_train)
    
    return X_train, X_test, y_train, y_test,reg

In [152]:
a,b,c,d,e=linear_func(X1, y1, train_size=0.8)

In [156]:
# データセットを用意する
# PandasのDataFrame型のtrain_dataに格納
import pandas as pd
import numpy as np

train_data=pd.read_csv("/Users/chidayasuhiro/diveintocode-ml/train.csv")

setsumei =train_data.loc[:,['GrLivArea','YearBuilt']]
mokuteki =train_data.loc[:,"SalePrice"]

In [165]:
X3=np.array(setsumei)
y3=np.array(mokuteki).reshape(len(mokuteki),1)

【問題3】 回帰問題を解くコードの作成

In [183]:
# House Pricesの場合　X3が特徴量のGrLivAreaとYearBuilt　y3が目的変数のSalePrice
# 関数を使い学習
y3=y3.reshape(len(y3),1)
a,b,c,d,e=tree_func(X3,y3,train_size=0.8)

# 分割したX_testとy_testを使用して推定と確認のため評価を行う
y_pred=e.predict(b)

# 評価のために平均二乗誤差を計算
from sklearn.metrics import mean_squared_error
mean_squared_error(d, y_pred)

2971648875.099315