# Sprint課題 機械学習スクラッチ入門

### 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。

In [48]:
# 最初に使用予定のデータやライブラリーを宣言しておく
from sklearn.datasets import load_iris # アイリスデータ
from sklearn.model_selection import train_test_split # データ分割
from sklearn.preprocessing import StandardScaler # 標準化
from sklearn.neighbors import KNeighborsClassifier # 最近傍法
from sklearn.metrics import accuracy_score # 正解率
from sklearn.metrics import precision_score # 適合率
from sklearn.metrics import recall_score # 再現率
from sklearn.metrics import f1_score # F値
from sklearn.metrics import confusion_matrix # 混合行列
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression # ロジスティック回帰
from sklearn.svm import SVC #SVC 
from sklearn.model_selection import cross_val_score # 決定木
from sklearn.tree import DecisionTreeClassifier # 決定木
from sklearn.ensemble import RandomForestClassifier # ランダムフォレスト
from sklearn.datasets import make_classification # ランダムフォレスト

from matplotlib.colors import ListedColormap

import os # ファイルの読み込み先のpath指定する時に必要
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt # グラフ描写のライブラリー
import matplotlib.patches as mpatches # 【問題7】可視化
import seaborn as sns # グラフ描写のライブラリー

In [49]:
def scratch_train_test_split(X, y, train_size=0.8,):
    """
    検証用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """

    n_features = X.shape[0] # 行数データを取得する
    len_train = int(n_features * train_size) # 
    X_train = X[:len_train,:]
    X_test = X[len_train:,:]

    n_features_y = y.shape[0] # 行数データを取得する
    len_train_y = int(n_features_y * train_size) # 
    y_train = y[:len_train_y,:]
    y_test = y[len_train_y:,:]
    
    return X_train, X_test, y_train, y_test

In [50]:
X = np.arange(30).reshape(10,3) # 適当な配列を作成して、サイズを変更した
y = np.arange(30).reshape(10,3) # 
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, train_size=0.8)

In [51]:
# 上記の関数の動作確認用セル
X = np.arange(30).reshape(10,3) # 適当な配列を作成して、サイズを変更した
y = np.arange(30).reshape(10,3) # 適当な配列を作成して、サイズを変更した

print(type(X))
print(type(y))

print(scratch_train_test_split(X, y, train_size=0.8))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
(array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]]), array([[24, 25, 26],
       [27, 28, 29]]), array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]]), array([[24, 25, 26],
       [27, 28, 29]]))


In [52]:
"""
# 動作確認用セル
ndarrayの配列データを入力値とするX,y をtrain_size の割合で分割して
多い方を train 、少ない方を test として週力する。
"""
X = np.arange(30).reshape(10,3) # 適当な配列を作成して、サイズを変更した
print(X.shape)
n_features = X.shape[0] # 行数データを取得する
print(n_features)
train_size = 0.8
len_tain = int(n_features * train_size) # 
print(len_tain)
X_train = X[:len_tain,:]
print(X_train)
X_test = X[len_tain:,:]
print(X_test)


(10, 3)
10
8
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]]
[[24 25 26]
 [27 28 29]]


In [53]:
# 動作確認用セル
y = np.arange(15).reshape(5,3) # 適当な配列を作成して、サイズを変更した
print(X.shape)
n_features_y = y.shape[0] # 行数データを取得する
print(n_features_y)
train_size_y = 0.8
len_tain_y = int(n_features_y * train_size_y) # 
print(len_tain_y)
y_train = y[:len_tain_y,:]
print(y_train)
y_test = y[len_tain_y:,:]
print(y_test)


(10, 3)
5
4
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[12 13 14]]


In [54]:
# 配列作成テスト
sample_ndarray = np.array([[1, 2, 3], [4, 5, 6]])
print(sample_ndarray)
print(sample_ndarray.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


In [55]:
# 配列作成テスト、二次元配列の作成
sample_ndarray1 = np.arange(6).reshape(2, 3)
sample_ndarray1[1, 2] # 1行2列目の要素を取り出す
sample_ndarray1[:, 1:] # 全ての行かつ1列目より後の列を配列として取り出す（スライス）
print(sample_ndarray1)

[[0 1 2]
 [3 4 5]]


In [56]:
# 配列作成テスト、二次元配列の作成から行列形状変換
sample_ndarray = np.arange(30).reshape(10,3)
print(sample_ndarray)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]
 [24 25 26]
 [27 28 29]]


### 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

In [57]:
# シンプルデータセット1作成コード、カリキュラムの内容をコピー
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]
# print(X)
# print(y)

In [58]:
# シンプルデータセット2作成コード、カリキュラムの内容をコピー
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
# print(X)
# print(y)

In [59]:
"""
# シンプルデータセット3作成コード、自作
データセットの一つはアイリスデータ。
アイリスデータの取得
特徴量を全て取得
目的変数は virgicolor viginica を使用
"""
data = load_iris()
# print(data)
df1 = pd.DataFrame(np.array(data.data),columns=['sepal_length','sepal_width','petal_length','petal_width']) # データフレームにするとデータを扱いやすい。Xに入れる。
df2 = pd.DataFrame(np.array(data.target),columns=['Species']).isin([1,2])
# df = pd.concat([df1,df2],axis=1) # 二つのデータセットを結合する
# df.head()
# df[df['Species'].isin([1,2])] # virgicolor,nica の二つの目的変数のデータだけ使いたい。
# X = df.values
# print(X)
X = df1.values # 分類するのに都合の良いように pndas から numpyにデータ変換
y = df2.values

In [60]:
# X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
# Y = np.array([1, 1, 2, 2])
clf = linear_model.SGDClassifier(max_iter=1000, tol=1e-3, loss="log")
clf.fit(X, y)

  y = column_or_1d(y, warn=True)


SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='log', max_iter=1000, n_iter=None,
       n_jobs=1, penalty='l2', power_t=0.5, random_state=None,
       shuffle=True, tol=0.001, verbose=0, warm_start=False)

In [61]:
# 配列を１次元にしないとワーニングが出るので変換してみる。
# y_hoge = y.values.reshape(1460,)

In [62]:
"""
ロジスティック回帰
y_hogeでワーニングが止まることを確認
"""
# X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
# Y = np.array([1, 1, 2, 2])
clf = linear_model.SGDClassifier(max_iter=1000, tol=1e-3, loss="log")
clf.fit(X, y)

  y = column_or_1d(y, warn=True)


SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='log', max_iter=1000, n_iter=None,
       n_jobs=1, penalty='l2', power_t=0.5, random_state=None,
       shuffle=True, tol=0.001, verbose=0, warm_start=False)

In [63]:
"""
SVM
"""
clf = SVC(gamma='auto')
clf.fit(X, y) 

  y = column_or_1d(y, warn=True)


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [64]:
"""
決定木
"""
clf = DecisionTreeClassifier(random_state=0)
cross_val_score(clf, X, y, cv=10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### 【問題3】 回帰問題を解くコードの作成
回帰問題
回帰は1種類をスクラッチします。

線形回帰
線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。

sklearn.linear_model.SGDRegressor — scikit-learn 0.21.3 documentation

データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。

House Prices: Advanced Regression Techniques

train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。


In [65]:
"""
使用データセット：train.csv
y:目的変数：SalePrice
X:特徴量（説明変数）：GrLivAreaとYearBuilt
"""
os.chdir('../week03')
df = pd.read_csv('train.csv')
df.head()
y = df.loc[:,['SalePrice']]
X = df.loc[:,['GrLivArea','YearBuilt']]

print(y.head())
print(X.head())

   SalePrice
0     208500
1     181500
2     223500
3     140000
4     250000
   GrLivArea  YearBuilt
0       1710       2003
1       1262       1976
2       1786       2001
3       1717       1915
4       2198       2000


In [66]:
X_train

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]])

In [67]:
"""
学習をする前に前処理を実施する必要がある。
"""
print(X.values)
print(y.values)
X_train, X_test, y_train, y_test = scratch_train_test_split(X.values, y.values, train_size=0.8)
# print(X_train, X_test, y_train, y_test)
# fit_transform で標準化している。
ss = StandardScaler()
# print(type(X))
# print(type(y))
# print(X)
X_train_ss = ss.fit_transform(X_train)
# print(X_train_ss)
# X_tr_fit_form = scaler.transform(X_tr_fit)
X_test_ss = ss.fit_transform(X_test)
# print(X_test_sc)

[[1710 2003]
 [1262 1976]
 [1786 2001]
 ...
 [2340 1941]
 [1078 1950]
 [1256 1965]]
[[208500]
 [181500]
 [223500]
 ...
 [266500]
 [142125]
 [147500]]




In [68]:
# int型だとワーニングになるので、float型に変換する。
hoge = X.astype(float)

In [69]:
"""
学習は最近某方で実施する
"""
knn_5 = KNeighborsClassifier(n_neighbors=5) # 学習したモデルのインスタンス。model ： object 可視化の時に使用する
print(knn_5)
print(X_train_ss)
# print(X_test_ss)
print(y_train)

knn_5_fit = knn_5.fit(X_train_ss, y_train)
y_pred_knn5 = knn_5_fit.predict(X_test_ss)
print(y_pred_knn5)
score = knn_5.score(X_test,y_test)
print(score)


  # Remove the CWD from sys.path while we load stuff.


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')
[[ 4.10597963e-01  1.05377353e+00]
 [-4.74094620e-01  1.51936247e-01]
 [ 5.60679741e-01  9.86970766e-01]
 ...
 [-1.52164744e-04  1.25418181e+00]
 [ 3.79001799e-01  1.22078043e+00]
 [ 3.33582314e-01  9.53569385e-01]]
[[208500]
 [181500]
 [223500]
 ...
 [233170]
 [245350]
 [173000]]
[135000 320000  85000  98600 194000 200624 135000 260000 131000  87000
  40000  82000 225000 174000 184750  79000 167000  87000  87000 165600
 185900 181000 167000 155000 103600 160000  97000 178000 212000 107400
 151000 155000  97000 200000 100000 214000  85000 211000 129500 154000
  98600 174000 187000 184000  80000  94750 127000 109900 126000 159895
 122900 113000  94750 118000 131000 145000 178000 132500 213500  94750
 210000 139900 142953 139950  98600 148000 137000 135000 214000 216837
 155000 172785 180000 220000 107000 233230 145000 178000 