# 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。


sklearn.model_selection.train_test_split — scikit-learn 0.21.3 documentation


なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。

In [162]:
import numpy as np

def scratch_train_test_split(X, y, train_size=0.8):
    
    # サイズ定義(roundは浮動小数点の後半が悪さをするので完全に切り捨てる)
    test_size = round(1 - train_size, 1)
    
    #サイズ変換(80%, 20%)  
    X_train_shape = int(X.shape[0] * train_size)
    X_test_shape = int(X.shape[0] * test_size) 
    y_train_shape = int(y.shape[0] * train_size)
    y_test_shape = int(y.shape[0] * test_size)
    
    #X,yにサイズを適用させる
    X_train = X[:X_train_shape]
    X_test = X[:X_test_shape]
    y_train = y[:y_train_shape]
    y_test =  y[:y_test_shape]
    
    # シャッフル
    np.random.seed(42)
    np.random.shuffle(X_train)
    np.random.shuffle(y_train)
    np.random.shuffle(X_test)
    np.random.shuffle(y_test)
    
    return X_train, X_test, y_train, y_test

In [194]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape) 

# １つだけ中身を見てみる
X_test

(120, 4)
(30, 4)
(120,)
(30,)


array([[4.9, 3.1, 1.5, 0.1],
       [6.4, 2.8, 5.6, 2.1],
       [5.7, 3. , 4.2, 1.2],
       [5.5, 2.6, 4.4, 1.2],
       [4.7, 3.2, 1.3, 0.2],
       [5.5, 3.5, 1.3, 0.2],
       [5.4, 3.4, 1.7, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [6.7, 3. , 5. , 1.7],
       [5.7, 2.8, 4.1, 1.3],
       [6.5, 3. , 5.5, 1.8],
       [7.3, 2.9, 6.3, 1.8],
       [4.4, 3. , 1.3, 0.2],
       [5.9, 3. , 5.1, 1.8],
       [5.8, 2.7, 5.1, 1.9],
       [4.9, 2.4, 3.3, 1. ],
       [6. , 3.4, 4.5, 1.6],
       [6.8, 3. , 5.5, 2.1],
       [4.8, 3.1, 1.6, 0.2],
       [5.6, 2.7, 4.2, 1.3],
       [6.6, 3. , 4.4, 1.4],
       [6.1, 3. , 4.6, 1.4],
       [5. , 3.5, 1.3, 0.3],
       [6. , 2.7, 5.1, 1.6],
       [7.7, 3. , 6.1, 2.3],
       [5.2, 3.5, 1.5, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [7. , 3.2, 4.7, 1.4],
       [6.3, 3.4, 5.6, 2.4],
       [6.9, 3.2, 5.7, 2.3]])

# 【問題2】 分類問題を解くコードの作成
下記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。


# 分類問題
分類は3種類の手法をスクラッチします。


ロジスティック回帰
SVM
決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。


sklearn.linear_model.SGDClassifier — scikit-learn 0.21.3 documentation
sklearn.svm.SVC — scikit-learn 0.21.3 documentation
sklearn.tree.DecisionTreeClassifier — scikit-learn 0.21.3 documentation

データセットは3種類用意します。


1つ目は事前学習期間同様にirisデータセットです。


sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation


2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。


virgicolorとvirginica

残り2つは特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。「シンプルデータセット1」「シンプルデータセット2」とします。特徴量が2つであるため可視化が容易です。



In [190]:
# 1. SGDClassifierのロジスティック回帰
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# irisをダウンロード（２値分類のため、virgicolorとvirginicaのデータのみ選択するう）
iris = load_iris()
X = iris.data[50:150]
y = iris.target[50:150]

# trainデータとtestデータに分割
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8)

# SGDClassifierをダウンロード
model = SGDClassifier(loss='log')
model.fit(X_train, y_train)

# 推定
pred = model.predict(X_test)
print(pred)

# 正解率
accuracy_score(pred, y_test)

# 推定がオール1だったので正解率を見たが、どうやら精度の問題だったらしい

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


1.0

In [201]:
# データセット2
import numpy as np
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [202]:
# 2. SVCで分類する
# データを分割する(データセット2参照)
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8)

# SVCをダウンロード
model_svc = SVC()
model_svc.fit(X_train, y_train)

# 推定
pred_svc = model_svc.predict(X_test)

pred_svc

array([-1,  1,  1, -1, -1,  1, -1, -1,  1, -1, -1,  1,  1,  1, -1,  1, -1,
        1,  1, -1,  1,  1,  1, -1, -1,  1, -1,  1,  1,  1,  1,  1,  1,  1,
        1,  1, -1,  1,  1,  1,  1,  1,  1,  1, -1,  1, -1, -1, -1,  1, -1,
        1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1, -1,  1, -1,  1,  1, -1,
        1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,
        1,  1,  1,  1,  1,  1,  1, -1,  1,  1, -1,  1, -1,  1,  1])

In [None]:
# データセット3
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [204]:
# 3.決定木にて分類する(データセット3参照)
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8)

# 決定木をダウンロード
model_tree = DecisionTreeClassifier()
model_tree.fit(X_train, y_train)

# 推定
pred_tree = model_tree.predict(X_test)
pred_tree

array([-1,  1,  1,  1,  1,  1, -1, -1, -1, -1, -1,  1,  1, -1,  1,  1,  1,
       -1, -1,  1,  1,  1, -1, -1,  1, -1,  1, -1,  1, -1,  1,  1,  1, -1,
        1,  1,  1,  1, -1, -1,  1, -1, -1,  1, -1, -1,  1,  1,  1, -1, -1,
        1,  1,  1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1, -1,  1, -1, -1,
       -1, -1, -1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1,  1,  1, -1,  1,
       -1, -1,  1,  1, -1, -1,  1,  1, -1,  1,  1,  1, -1,  1, -1])

# 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

# 回帰問題
回帰は1種類をスクラッチします。


線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


House Prices: Advanced Regression Techniques


train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。



In [237]:
import pandas as pd
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

#House Pricesデータ
dir_path = '/Users/yuki.tatsuoka/Downloads/house-prices-advanced-regression-techniques (1)/'
df = pd.read_csv(dir_path + "train.csv")

X = df.loc[:, ['GrLivArea', 'YearBuilt']]
y = df.loc[:, 'SalePrice']

# 標準化
scaler = StandardScaler()
X_norm = scaler.fit_transform(X)

# X,yを分割する
X_train, X_test, y_train, y_test = scratch_train_test_split(X_norm, y, train_size=0.8)

# モデルをダウンロード
model_sgd = SGDRegressor()
model_sgd.fit(X_train, y_train)

# 推定
pred_sgd = model_sgd.predict(X_test)
pred_sgd.shape

(292,)

In [238]:
# 評価もしてみる
mean_squared_error(pred_sgd, y_test)

5519064183.451536