# 1.この課題の目的
pyファイルを扱うことに慣れる
機械学習スクラッチの準備をする
以下の要件をすべて満たしていた場合、合格とします。

※Jupyter Notebookを使い課題に沿った検証や説明ができている。

# 2.スクラッチ
次回から機械学習手法のスクラッチを行っていきます。Sprint2ではその準備として、scikit-learnのtrain_test_splitのスクラッチと、分類・回帰のパイプラインの作成を行います。

スクラッチ課題は、最終的にpyファイルをJupyter Notebook上から実行する形で作成していただきます。補助教材「pyファイルの利用方法」をご覧ください。

## スクラッチの意義
ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。

スクラッチをすることでscikit-learnなどのライブラリを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。コーディングのスキル向上も兼ねますが、それは主な目的ではありません。

以下のような効果を狙っています。

新たな手法に出会った時に理論・数式を理解しやすくする
ライブラリを使う上での曖昧さを減らす
既存の実装を読みやすくする

## GitHubにディレクトリを作成
スクラッチのコードを管理するため、「diveintocoe-term1」配下に以下のような構造で「ml-scratch」を作成してください。この構造は一例なので、随時自分なりに追加、変更していってください。

In [1]:
"""
diveintocode-term1/
　├ ml-scratch/
　│　├ utils/
　│　└ model/
　├ sprint1/
　└ sprint2/
""";

- utils : 手法に関わらず共通して使うコードを格納
- model : 各種モデルのコードを格納
この後作成するtrain_test_splitなどの関数は複数のSprintで使用するため、utilsの中に置いておき、それをインポートして使えるようにしていきます。

# 【問題1】train_test_splitのスクラッチ
まずはスクラッチの練習として、scikit-learnのtrain_test_splitを自作してみましょう。Jupyter Notebookでコーディングを進め、完成後はpyファイルとします。utilsディレクトリの中にsplit.pyを作ってください。

[sklearn.model_selection.train_test_split — scikit-learn 0.20.0 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [2]:
def train_test_split_scratch(X, y, train_size=0.8,):
    """
    学習用データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      学習データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      学習データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    
    # テストサイズの計算
    test_size = 1 - train_size
    
    # 各trainデータの行数の計算(小数点は切り捨てる為、int型に変換)
    len_X_train = int(len(X) * train_size)  
    len_y_train = int(len(y) * train_size)
    
    # 各trainデータの格納
    X_train = X[:len_X_train]
    y_train = y[:len_y_train]
    
    # 各testデータの格納
    X_test = X[len_X_train:]
    y_test = y[len_y_train:]

    return X_train, X_test, y_train, y_test

## 動作確認①numpy配列を引数とした場合→正常動作を確認

In [3]:
import numpy as np
import pandas as pd

In [4]:
# 動作確認用の10行10列のnumpy配列のarr_x
arr_x = np.arange(1,101).reshape([10,10])
arr_x

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35,  36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [5]:
# 動作確認用の10行1列のnumpy配列のarr_y
arr_y = np.arange(1,11).reshape(10, 1)
arr_y

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10]])

In [6]:
# train_test_split_scratchメソッドにてデータを分割(学習データ80% テストデータ20%)
X_train, X_test, y_train, y_test = train_test_split_scratch(arr_x, arr_y)

In [7]:
# X_trainのデータの個数は全体の80%
X_train

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50],
       [51, 52, 53, 54, 55, 56, 57, 58, 59, 60],
       [61, 62, 63, 64, 65, 66, 67, 68, 69, 70],
       [71, 72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [8]:
# X_testのデータの個数は全体の20%
X_test

array([[ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [9]:
# y_trainのデータの個数は全体の80%
y_train

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])

In [10]:
# y_trainのデータの個数は全体の20%
y_test

array([[ 9],
       [10]])

## 動作確認②DataFrameを引数とした場合→正常動作を確認

In [11]:
# 動作確認用の10行10列のDataFrameのarr_x_df
arr_x_df = pd.DataFrame(arr_x)
arr_x_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,2,3,4,5,6,7,8,9,10
1,11,12,13,14,15,16,17,18,19,20
2,21,22,23,24,25,26,27,28,29,30
3,31,32,33,34,35,36,37,38,39,40
4,41,42,43,44,45,46,47,48,49,50
5,51,52,53,54,55,56,57,58,59,60
6,61,62,63,64,65,66,67,68,69,70
7,71,72,73,74,75,76,77,78,79,80
8,81,82,83,84,85,86,87,88,89,90
9,91,92,93,94,95,96,97,98,99,100


In [12]:
# 動作確認用の10行1列のDataFrameのarr_df
arr_y_df = pd.DataFrame(arr_y)
arr_y_df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [13]:
# train_test_split_scratchメソッドにてデータを分割(学習データ80% テストデータ20%)
X_train_df, X_test_df, y_train_df, y_test_df = train_test_split_scratch(arr_x_df, arr_y_df)

In [14]:
# X_train_dfのデータの個数は全体の80%
X_train_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,2,3,4,5,6,7,8,9,10
1,11,12,13,14,15,16,17,18,19,20
2,21,22,23,24,25,26,27,28,29,30
3,31,32,33,34,35,36,37,38,39,40
4,41,42,43,44,45,46,47,48,49,50
5,51,52,53,54,55,56,57,58,59,60
6,61,62,63,64,65,66,67,68,69,70
7,71,72,73,74,75,76,77,78,79,80


In [15]:
# X_test_dfのデータの個数は全体の20%
X_test_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
8,81,82,83,84,85,86,87,88,89,90
9,91,92,93,94,95,96,97,98,99,100


In [16]:
# y_train_dfのデータの個数は全体の80%
y_train_df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8


In [17]:
# y_test_dfのデータの個数は全体の20%
y_test_df

Unnamed: 0,0
8,9
9,10


## 動作確認③sklearnのtrain_test_splitメソッドと動作比較→同様の動作となることを確認

In [18]:
# scikit-learnライブラリのtrain_test_splitメソッドをインポート
from sklearn.model_selection import train_test_split

In [19]:
# train_test_splitメソッドにてデータを分割(学習データ80% テストデータ20%)
X_train, X_test, y_train, y_test = train_test_split_scratch(arr_x, arr_y)

In [20]:
X_train

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50],
       [51, 52, 53, 54, 55, 56, 57, 58, 59, 60],
       [61, 62, 63, 64, 65, 66, 67, 68, 69, 70],
       [71, 72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [21]:
X_test

array([[ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [22]:
y_train

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])

In [23]:
y_test

array([[ 9],
       [10]])

In [24]:
# train_test_splitメソッドにてデータを分割(学習データ80% テストデータ20%)
X_train_df, X_test_df, y_train_df, y_test_df = train_test_split_scratch(arr_x_df, arr_y_df)

In [25]:
X_train_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,2,3,4,5,6,7,8,9,10
1,11,12,13,14,15,16,17,18,19,20
2,21,22,23,24,25,26,27,28,29,30
3,31,32,33,34,35,36,37,38,39,40
4,41,42,43,44,45,46,47,48,49,50
5,51,52,53,54,55,56,57,58,59,60
6,61,62,63,64,65,66,67,68,69,70
7,71,72,73,74,75,76,77,78,79,80


In [26]:
X_test_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
8,81,82,83,84,85,86,87,88,89,90
9,91,92,93,94,95,96,97,98,99,100


In [27]:
y_train_df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8


In [28]:
y_test_df

Unnamed: 0,0
8,9
9,10


# 3.パイプラインの作成
次回以降、scikit-learnと同じ動作をするクラスを作成していきますが、まずはscikit-learnを使ったコードを用意しておきます。ここまでの復習を兼ねていますので、学んだことを思い出しながら使いやすいコードを完成させてください。

このコードを元に、Sprintが進むごとに呼び出すクラスを自作のものに変えていきます。

## ①データセットの準備

### アイリスデータセット→2値分類

In [29]:
# irisデータの読み込み
from sklearn.datasets import load_iris
data = load_iris()

# 説明変数をデータフレームxに格納
X = pd.DataFrame(data['data'],
                 columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [30]:
# 目的変数をデータフレームyに格納
y = pd.DataFrame(data['target'], columns=['Species'])
y.head()

Unnamed: 0,Species
0,0
1,0
2,0
3,0
4,0


In [31]:
# virgicolorとvirginicaの目的変数をy_irisに格納
y_iris = y.query('Species == 1 or Species == 2')
y_iris.head()

Unnamed: 0,Species
50,1
51,1
52,1
53,1
54,1


In [32]:
# データフレームXとyを横に結合
# 特定のラベルの特徴量を抽出できるようにする為
X = pd.concat([X, y], axis=1)
X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [33]:
# virgicolor と virginica の特徴量のみ(Species == 1 or Species == 2)
# を抽出しX_irisに格納
X_iris = X.query('Species == 1 or Species == 2').iloc[:, :4]
X_iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
50,7.0,3.2,4.7,1.4
51,6.4,3.2,4.5,1.5
52,6.9,3.1,4.9,1.5
53,5.5,2.3,4.0,1.3
54,6.5,2.8,4.6,1.5


### シンプルデータセット1→2値分類

In [34]:
import numpy as np

np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

In [35]:
X_data1 =X

In [36]:
y_data1 = y
y_data1

array([-1,  1,  1,  1,  1,  1, -1, -1, -1, -1, -1,  1,  1, -1,  1,  1,  1,
       -1, -1,  1,  1,  1, -1, -1,  1, -1,  1, -1,  1, -1,  1,  1,  1, -1,
        1,  1,  1,  1, -1, -1,  1, -1, -1,  1, -1, -1,  1,  1,  1, -1, -1,
        1,  1,  1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1, -1,  1, -1, -1,
       -1, -1, -1,  1, -1,  1,  1,  1, -1, -1,  1,  1,  1,  1,  1, -1,  1,
       -1, -1,  1,  1, -1, -1,  1,  1, -1,  1,  1,  1, -1,  1, -1, -1, -1,
        1, -1,  1,  1, -1, -1,  1, -1, -1, -1,  1, -1,  1, -1, -1,  1,  1,
        1,  1,  1, -1,  1,  1, -1, -1, -1, -1,  1,  1,  1,  1, -1, -1,  1,
       -1,  1, -1, -1, -1,  1,  1,  1,  1,  1, -1,  1,  1, -1, -1, -1, -1,
        1,  1,  1, -1,  1, -1, -1,  1,  1,  1,  1, -1, -1,  1, -1, -1, -1,
       -1, -1, -1,  1,  1,  1, -1, -1,  1, -1, -1,  1, -1, -1,  1, -1, -1,
        1,  1, -1,  1, -1, -1, -1,  1, -1, -1, -1, -1, -1,  1, -1,  1, -1,
       -1, -1,  1,  1,  1, -1, -1,  1,  1, -1, -1,  1, -1, -1,  1,  1, -1,
        1,  1, -1,  1,  1

### シンプルデータセット2→2値分類

In [37]:
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [38]:
X_data2 = X

In [39]:
y_data2 = y
y_data2

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## ②データセットを学習データとテストデータに分割

In [40]:
# irisデータセットを学習データ80% テストデータ20%に分割する
X_train_iris, X_test_iris, y_train_iris, y_test_iris = train_test_split_scratch(X_iris, y_iris)

In [41]:
X_train_iris.shape

(80, 4)

In [42]:
X_test_iris.shape

(20, 4)

In [43]:
# サンプルデータセット1データセットを学習データ80% テストデータ20%に分割する
X_train_data1, X_test_data1, y_train_data1, y_test_data1 = train_test_split_scratch(X_data1, y_data1)

In [44]:
# サンプルデータセット2データセットを学習データ80% テストデータ20%に分割する
X_train_data2, X_test_data2, y_train_data2, y_test_data2 = train_test_split_scratch(X_data2, y_data2)

## ②各分類モデルの作成
### ロジスティック回帰→LogisticRegression_scratch.pyに作成
### SVM→SVM_scratch.pyに作成
### 決定木→DecisionTreeClassifier_scratch.pyに作成

## ③各分類モデルでの学習・予測

In [45]:
# 各モデルの予測データを格納する辞書　predict_iris
predict= {}

# 各モデルの評価値を格納する辞書　score
score = {}

In [46]:
#各モデルのデータを格納する辞書 base_data
base_data = {'iris':[X_train_iris, y_train_iris, X_test_iris, y_test_iris], 
             'simple_data1': [X_train_data1, y_train_data1, X_test_data1, y_test_data1],
             'simple_data2':[X_train_data2, y_train_data2, X_test_data2, y_test_data2]
            }

In [47]:
# accuracy_score、precision_score、recall_score、f1_scoreメソッドをインポート
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

In [48]:
# sysライブラリをインポート
import sys

# 作成した各クラスが格納してあるフォルダを指定する
sys.path.append(r'\diveintocode-ml\ml_scratch\model')

# 作成したロジスティック回帰モデルをインポート
from LogisticRegression_scratch import LogisticRegression_scratch

# 作成したSVMモデルをインポート
from SVM_scratch import SVM_scratch

# 作成した決定木モデルをインポート
from DecisionTreeClassifier_scratch import DecisionTreeClassifier_scratch

# StandardScalerクラスをインポート
from sklearn.preprocessing import StandardScaler

In [49]:
# Pipeline クラスをインポート
from sklearn.pipeline import Pipeline

# Pipeline の設定
# データの正規化後に各モデルにデータを読み込ませる
pipelines = {
    'log':
        Pipeline([('scl',StandardScaler()),
                  ('est',LogisticRegression_scratch())]),
    'svm':
        Pipeline([('scl',StandardScaler()),
                  ('est',SVM_scratch())]),
    'dec':
        Pipeline([('scl',StandardScaler()),
                  ('est',DecisionTreeClassifier_scratch())])
}

### 学習・予測・評価

In [50]:
# data_nameにデータの名前、dataにX_train、y_train、X_testが格納されたリストを代入
for data_name, data in base_data.items():
    
    # 使用するデータをdataから抽出
    X_train = data[0]
    y_train = data[1]
    X_test  = data[2]
    y_test  = data[3]
    
    # pipeline_mameに各モデルの名前、pipelineに各モデルのインスタンスを代入
    for pipe_name, pipeline in pipelines.items():
        
        # 学習モデルを学習データを投入
        pipeline.fit(X_train, y_train)
        
        # 学習モデルにX_testで予測し、辞書predictに格納
        pred = pipeline.predict(X_test)
        
        # 辞書predictに格納
        predict[data_name + '_X_test_' + pipe_name] = pred
        
        # Accuracyを_Score計算し辞書scoreに格納
        score[data_name + '_' +pipe_name + '_' + 'Accuracy'] = accuracy_score(y_test,pred)
        
        # Precision_Scoreを計算し辞書scoreに格納
        score[data_name + '_' +pipe_name + '_' + 'Precision_Score'] = precision_score(y_test, pred, average='micro')
        
        # Recall_Scoreを計算し辞書scoreに格納
        score[data_name + '_'+ pipe_name + '_'+ 'Recall_Score'] = recall_score(y_test, pred, average='micro')
        
         # F1_Scoreを計算し辞書scoreに格納
        score[data_name + '_'+ pipe_name + '_'+ 'F1_Score'] = f1_score(y_test, pred, average='micro')

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


In [51]:
# 予測結果を表示
for predict_name, predict in predict.items():
    print(predict_name, predict)

iris_X_test_log [2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
iris_X_test_svm [2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
iris_X_test_dec [2 2 2 1 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2]
simple_data1_X_test_log [-1 -1  1 -1  1  1 -1  1 -1  1 -1  1  1 -1  1  1  1  1 -1  1 -1 -1 -1 -1
  1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1  1 -1  1 -1  1  1  1 -1  1 -1 -1  1
  1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1  1 -1 -1  1  1 -1  1 -1 -1  1 -1  1  1
 -1 -1  1  1 -1  1 -1 -1  1 -1  1 -1  1 -1 -1 -1 -1 -1  1  1 -1 -1 -1 -1
  1  1  1 -1]
simple_data1_X_test_svm [-1 -1  1 -1  1  1 -1  1 -1  1 -1  1  1 -1  1  1  1  1 -1  1 -1 -1 -1 -1
  1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1  1 -1  1 -1  1  1  1 -1  1 -1 -1  1
  1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1  1 -1 -1  1  1 -1  1 -1 -1  1 -1  1  1
 -1 -1  1  1 -1  1 -1 -1  1 -1  1 -1  1 -1 -1 -1 -1 -1  1  1 -1 -1 -1 -1
  1  1  1 -1]
simple_data1_X_test_dec [-1 -1  1 -1  1  1 -1  1 -1  1 -1  1  1 -1  1  1  1  1 -1  1 -1 -1 -1 -1
  1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1  1 -1  1 -1  1  1  1 -1  1 -1 -1

In [52]:
# 評価値を表示
score

{'iris_log_Accuracy': 0.95,
 'iris_log_Precision_Score': 0.95,
 'iris_log_Recall_Score': 0.95,
 'iris_log_F1_Score': 0.9500000000000001,
 'iris_svm_Accuracy': 0.9,
 'iris_svm_Precision_Score': 0.9,
 'iris_svm_Recall_Score': 0.9,
 'iris_svm_F1_Score': 0.9,
 'iris_dec_Accuracy': 0.85,
 'iris_dec_Precision_Score': 0.85,
 'iris_dec_Recall_Score': 0.85,
 'iris_dec_F1_Score': 0.85,
 'simple_data1_log_Accuracy': 1.0,
 'simple_data1_log_Precision_Score': 1.0,
 'simple_data1_log_Recall_Score': 1.0,
 'simple_data1_log_F1_Score': 1.0,
 'simple_data1_svm_Accuracy': 1.0,
 'simple_data1_svm_Precision_Score': 1.0,
 'simple_data1_svm_Recall_Score': 1.0,
 'simple_data1_svm_F1_Score': 1.0,
 'simple_data1_dec_Accuracy': 1.0,
 'simple_data1_dec_Precision_Score': 1.0,
 'simple_data1_dec_Recall_Score': 1.0,
 'simple_data1_dec_F1_Score': 1.0,
 'simple_data2_log_Accuracy': 0.375,
 'simple_data2_log_Precision_Score': 0.375,
 'simple_data2_log_Recall_Score': 0.375,
 'simple_data2_log_F1_Score': 0.375,
 'simple_

# 【問題3】 回帰パイプラインの作成
回帰は1種類を扱います。pyファイルで実行できる回帰のパイプラインを作成してください。

- 線形回帰
データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。

[House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)

**train.csv**をダウンロードし、目的変数として**SalePrice**、説明変数として、**GrLivArea**と**YearBuilt**を使います。

## ①データの準備

In [53]:
# pandas numpy matplotlib.pyplotライブラリをインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# train.csvをデータフレーム形式で読み込んで表示
df = pd.read_csv('train.csv') 
df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [54]:
# 特徴量GrLivAreaとYearBuilt の列のみ抽出
X_df = df.loc[: , ['GrLivArea', 'YearBuilt']]
X_df.head()

Unnamed: 0,GrLivArea,YearBuilt
0,1710,2003
1,1262,1976
2,1786,2001
3,1717,1915
4,2198,2000


In [55]:
# X_dfに欠損値がないことを確認
X_df.isnull().sum()

GrLivArea    0
YearBuilt    0
dtype: int64

In [56]:
X_np = np.array(X_df)
X_np[:5]

array([[1710, 2003],
       [1262, 1976],
       [1786, 2001],
       [1717, 1915],
       [2198, 2000]], dtype=int64)

In [57]:
# 目的変数列SalePrice列をnumpy配列に変換し、reshapeメソッドで1460行１列に変換
y = df.loc[:,'SalePrice']
y.head()

0    208500
1    181500
2    223500
3    140000
4    250000
Name: SalePrice, dtype: int64

In [58]:
# y_dfに欠損値がないことを確認
y.isnull().sum()

0

In [59]:
y.shape

(1460,)

## ②データセットを学習データとテストデータに分割

In [60]:
# scikit-learnライブラリのtrain_test_splitメソッドをインポート
from sklearn.model_selection import train_test_split

# train_test_splitメソッドにてデータを学習データとテストデータに分割　学習データは75%で設定
X_train, X_test, y_train, y_test = train_test_split(X_np, y, 
                                                    test_size = 0.25, 
                                                    random_state = 0)

In [61]:
X_train.shape

(1095, 2)

In [62]:
X_test.shape

(365, 2)

In [63]:
y_train.shape

(1095,)

In [64]:
y_test.shape

(365,)

## ③パイプラインを構築

In [65]:
# 作成したLinearRegression_scratchモデルをインポート
from LinearRegression_scratch import LinearRegression_scratch

# Pipelineクラスを定義(データを正規化して、線形回帰モデルを使用)
pipeline = Pipeline([
    
    # StandardScalerクラスを定義
    ('std', StandardScaler()),
    
    # LinearRegressionクラスを定義
    ('lin', LinearRegression_scratch())]
)

## ④学習・予測

In [66]:
# 学習
pipeline.fit(X_train, y_train)

# 予測
predict = pipeline.predict(X_test)



In [67]:
# mean_squared_error メソッドをインポート
from sklearn.metrics import mean_squared_error

# 平均2乗誤差の表示
mean_squared_error(y_test, predict)

2725908099.063638