# scikit-learn 入門/Introduction to scikit-learn

* scikit-learn は Python のオープンソース機械学習ライブラリです.

* scikit-learn というライブラリを用いて,データを使ってモデルを訓練し,評価するという一連の流れを解説します.

* 機械学習の様々な手法を用いる際には,データを使ってモデルを訓練するまでに,以下の **5 つのステップ**がよく共通して現れます.

- Step 1：**データセットの準備**
- Step 2：**モデルを決める**
- Step 3：**目的関数を決める**
- Step 4：**最適化手法を選択する**
- Step 5：**モデルを訓練する**

* これらの 5 つのステップ + テストデータでの精度検証までをscikit-learn の機能を使って簡潔に紹介します.

* scikit-learn is an open source machine learning library in Python.

* Using the scikit-learn library, we will explain the sequence of steps of training and evaluating models with data.

* When using various machine learning methods, the following **five steps** often appear in common before training models with data.

- Step 1: **Prepare the dataset**.
- Step 2: **Determine the model**.
- Step 3: **Determine the objective function**.
- Step 4: **Select the optimization method**.
- Step 5: **Train the model**.

* These 5 steps + up to accuracy validation on test data will be briefly introduced using scikit-learn's functionality.

## scikit-learn を用いた重回帰分析/Multiple regression analysis using scikit-learn

* scikit-learn を使ってより大きなデータセットに対し適用してみます.

* Apply scikit-learn to a larger data set.

### Step 1：データセットの準備/Dataset Preparation

* 米国ボストンの 506 の地域ごとの住環境の情報などと家賃の中央値の情報を収集して作られた Boston house prices dataset というデータセットを使用します.

* このデータセットには 506 件のサンプルが含まれており,各サンプルは以下の情報を持っています.

| 属性名 | 説明 |
|:--|:--|
| CRIM | 人口 1 人あたりの犯罪発生率 |
| ZN | 25,000 平方フィート以上の住宅区画が占める割合 |
| INDUS | 小売業以外の商業が占める面積の割合 |
| CHAS | チャールズ川の川沿いかどうか (0 or 1) |
| NOX | 窒素酸化物の濃度 |
| RM | 住居の平均部屋数 |
| AGE | 1940 年より前に建てられた持ち主が住んでいる物件の割合 |
| DIS | 5 つのボストン雇用施設からの重み付き距離 |
| RAD | 環状高速道路へのアクセシビリティ指標 |
| TAX | $10,000 あたりの固定資産税率 |
| PTRATIO | 町ごとにみた教師 1 人あたりの生徒数 |
| B | 町ごとにみた黒人の比率を Bk としたときの (Bk - 0.63)^2 の値 |
| LSTAT | 給与の低い職業に従事する人口の割合 |
| MEDV | 物件価格の中央値 |

* We use a dataset called the Boston house prices dataset, which was created by collecting information on living conditions and median rent for each of 506 neighborhoods in Boston, USA.

* The dataset contains 506 samples, each with the following information

| Attribute Name | Description |
|:--|:--|
| CRIM | Crime Rate per Capita |
| ZN | Percentage of Residential Parcels Over 25,000 Square Feet|
| INDUS | Percentage of area occupied by non-retail commerce |
| CHAS | Whether along the Charles River (0 or 1)|
| NOX | Concentration of nitrogen oxides|
| RM | Average number of rooms in a dwelling |
| AGE | Percentage of owner-occupied properties built before 1940|
| DIS | Weighted distances from five Boston employment facilities|
| RAD | Accessibility Index to Beltway|
| TAX | Property tax rate per $10,000|
| PTRATIO | Number of students per teacher by town|
| B |(Bk - 0.63)^2 where Bk is the percentage of blacks per town
| LSTAT | Percentage of population engaged in low-paying occupations
| MEDV | median property value

* このデータセットを用いて最後の MEDV 以外の 13 個の指標からMEDV を予測する回帰問題に取り組んでみましょう.

* このデータセットは, scikit-learn の `load_boston()` という関数を呼び出すことで読み込むことができます.

* Using this dataset, let's solve the regression problem of predicting the MEDV from 13 indicators except the last MEDV.

* This dataset can be loaded by calling the scikit-learn function `load_boston()`.

In [None]:
from sklearn.datasets import load_boston

dataset = load_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

* 読み込んだデータセットは, `data` という属性と `target` という属性を持っており, それぞれに入力値と目標値を並べた ndarray が格納されています.

* これらを取り出して,それぞれ `x` と `t` という変数に格納しておきます.

* The loaded dataset has an attribute `data` and an attribute `target`, each of which contains an ndarray of input and target values.

* Let's take them out and store them in the variables `x` and `t`, respectively.

In [None]:
x = dataset.data
t = dataset.target

* 入力値が格納されている `x` は、506 個の 13 次元ベクトルを並べたものになっています.

* 形を確認してみます.

* The `x` where the input values are stored is a sequence of 506 13-dimensional vectors.

* Let's check the shape.

In [None]:
x.shape

(506, 13)

* 一方 `t` は, 各データ点ごとに 1 つの値を持つため, 506 次元のベクトルになっています.

* 形を確認してみます.

* On the other hand, `t` has one value for each data point, making it a 506-dimensional vector.

* Let's check the shape.

In [None]:
t.shape

(506,)

#### データセットの分割/Splitting a dataset

* まずこのデータセットを 2 つに分割します.

* それはモデルの訓練に用いるためのデータと, 訓練後のモデルのパフォーマンスをテストするために用いるデータは, 異なるものになっている必要があるためです.

* なぜデータセットを分割する必要があるかを説明します.

* 例えば, 大学受験の準備のために 10 年分の過去問を購入し, 一部を**勉強のため**に 一部を**勉強の成果をはかる**ために使用したいとします.

* 10 年分という限られた数の問題を使って, 結果にある程度の信頼のおけるような方法で実力をチェックするには, 下記の 2 つのうちどちらの方法がより良いでしょうか.

  - 10 年分の過去問全てを使って勉強したあと, もう一度同じ問題を使って実力をはかる

  - 5 年分の過去問だけを使って勉強し、残りの 5 年分の未だ見たことがない問題を使って実力をはかる

* 一度勉強した問題を再び解くことができると確認できても, 大学受験の当日に未知の問題が出たときにどの程度対処できるかを事前にチェックするには不十分です.

* よって, 後者のような方法で数限られた問題を活用する方が本当の実力をはかるには有効です.

* これは機械学習におけるモデルの訓練と検証でも同様に言えることです.

* **実力をつける**ための勉強に使うデータの集まりを**訓練用データセット (training dataset)** といい, **実力をはかる**ために使うデータの集まりを**テスト用データセット (test dataset)** と言います.

* このとき, 訓練用データセットとテスト用データセットに含まれるデータの間には**重複がないようにします。**

* さきほど用意した `x` と `t` を、訓練用データセットとテスト用データセットに分割します.

* どのように分けるかには色々な方法がありますが, 単純に全体の何割かを訓練用データセットとし, 残りをテスト用データセットとする, といった分割を行う方法は**ホールドアウト法 (holdout method)** と呼ばれます.

* scikit-learn では, データセットから指定された割合（もしくは個数）のデータをランダムに抽出して訓練用データセットを作成し, 残りをテスト用データセットとする処理を行う関数が提供されています.

* First, we split this dataset into two parts.

* The reason is that the data used to train the model and the data used to test the performance of the model after training need to be different.

* We will explain why we need to split the dataset.

* For example, suppose you have purchased 10 years of past papers to prepare for a university exam, and you want to use some of them for **study** and some of them for **measuring the performance of your study**.

* Which of the following two methods is a better way to check your performance with a limited number of 10 years' worth of questions in a way that you can have some confidence in your results?

  - Study all the past 10 years' worth of problems and then test your ability again with the same problems

  - Study only the past 5 years' worth of questions, and then use the remaining 5 years' worth of questions that you have not seen yet to test your ability.

* Even if you can confirm that you can solve the problems you have studied once again, it is not enough to check in advance how well you can cope with unknown problems on the day of university entrance examinations.

* Therefore, it is more effective to use a limited number of problems in the latter way to measure your real ability.

* This is also true for training and validation of models in machine learning.

* The collection of data used for **study** is called **training dataset**, and the collection of data used for **testing** is called **test dataset**.

* In this case, there should be no **duplication between the data in the training dataset and the test dataset**. 

* Split the `x` and `t` we have just prepared into a training dataset and a test dataset.

* There are many ways to do this, but a simple way is called the **holdout method** where a fraction of the dataset is the training dataset and the rest is the test dataset.

* In scikit-learn, a function is provided to randomly extract a specified percentage (or number) of data from a dataset to create a training dataset, and the rest is used as a test dataset.

In [None]:
# データセットを分割する関数の読み込み/Loading a function to split a dataset
from sklearn.model_selection import train_test_split

# 訓練用データセットとテスト用データセットへの分割/Split into training and testing datasets
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.3, random_state=0)

* ここで, `train_test_split()` の `test_size` という引数に 0.3 を与えています.

* これはテスト用データセットを全体の 30% のデータを用いて作成することを意味しています.

* 自動的に残りの 70% は訓練用データセットとなります.

* 上のコードは全サンプルの中から**ランダムに** 70% を訓練データとして抽出し, 残った 30% をテストデータとして返します.

* 例えば, データセット中のサンプルが, 目標値が 1 のサンプルが 10 個, 2 のサンプルが 8 個、3 のサンプルが 12個…というように, カテゴリごとにまとめられて並んでいることがあります.

* そのとき, データセットの先頭から 18 個目のところで訓練データとテストデータに分割したとすると, 訓練データには目標値が 3 のデータが 1 つも含まれないこととなります.

* そこで, ランダムにデータセットを分割する方法が採用されています.

* `random_state` という引数に毎回同じ整数を与えることで, 実行のたびに結果が変わることを防いでいます.

* それでは, 分割後の訓練データを用いてモデルの訓練、精度の検証を行いましょう.

* Here, the `test_size` argument of `train_test_split()` is given as 0.3.

* This means that the test dataset is created with 30% of the total data.

* Automatically, the remaining 70% will be the training dataset.

* The above code will **randomly** extract 70% of all samples as training data and return the remaining 30% as test data.

* For example, there may be 10 samples with target value of 1, 8 samples with target value of 2, 12 samples with target value of 3, and so on, grouped by categories.

* If you split the dataset into training and test data at the 18th sample from the top, the training data will not contain any data with the target value of 3.

* Therefore, a method of random splitting of the dataset is employed.

* The same integer is given to the `random_state` argument each time, so that the result will not be different each time you run the simulation.

* Now, let's train the model and test the accuracy of the model using the split training data.

### Step 2 ~ 4：モデル・目的関数・最適化手法を決める/Determine model, objective function, and optimization method

* scikit-learn で重回帰分析を行う場合は, `LinearRegression` クラスを使用します.

* `sklearn.linear_model` 以下にある `LinearRegression` クラスを読み込んで, インスタンスを作成しましょう.

* To perform multiple regression analysis in scikit-learn, use the `LinearRegression` class.

* Read the `LinearRegression` class under `sklearn.linear_model` and create an instance.

In [None]:
from sklearn.linear_model import LinearRegression

# モデルの定義/Define Model
reg_model = LinearRegression()

* 上記のコードは, 前述の 2 〜 4 までのステップを行います.

* `LinearRegression` は最小二乗法を行うクラスで, 目的関数や最適化手法もあらかじめ内部で用意されたものが使用されます.

* 詳しくはこちらのドキュメントを参照してください.

  - 参考：[sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)

* The above code performs steps 2 through 4 above.

* `LinearRegression` is a class that performs the least-squares method, and the objective function and optimization method are prepared in advance.

* For details, please refer to this document.

  - Reference: [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression .html#sklearn.linear_model.LinearRegression)

### Step 5：モデルの訓練/Training of models

* 次にモデルの訓練を行います.

* scikit-learn に用意されている手法の多くは, 共通して `fit()` というメソッドを持っており, 再利用可能なコードが書きやすくなっています.

* `reg_model` を用いて訓練を実行するには, `fit()` の引数に入力値 `x` と目標値 `t` を与えます.

* Next, train the model.

* Most of the methods provided in scikit-learn have a common method `fit()`, which makes it easy to write reusable code.

* To train with `reg_model`, give input value `x` and target value `t` as arguments to `fit()`.

In [None]:
# モデルの訓練/Training of models
reg_model.fit(x_train, t_train)

LinearRegression()

* モデルの訓練が完了しました.

* 求まったパラメータの値を確認してみます.

* 重回帰分析では, 重み `w` とバイアス `b` の２つがパラメータでした.

* 求まった重み `w` の値は `model.coef_` に、バイアス `b` の値は `model.intercept_` に格納されています.

* Training of the model is complete.

* Let's check the values of the parameters obtained.

* In the multiple regression analysis, the two parameters are the weights `w` and the bias `b`.

* The obtained value of the weight `w` is stored in `model.coef_` and the value of the bias `b` is stored in `model.intercept_`.

In [None]:
# 訓練後のパラメータ w/Parameter w after training
reg_model.coef_

array([-1.21310401e-01,  4.44664254e-02,  1.13416945e-02,  2.51124642e+00,
       -1.62312529e+01,  3.85906801e+00, -9.98516565e-03, -1.50026956e+00,
        2.42143466e-01, -1.10716124e-02, -1.01775264e+00,  6.81446545e-03,
       -4.86738066e-01])

In [None]:
# 訓練後のバイアス b/Bias b after training
reg_model.intercept_

37.93710774183309

* モデルの訓練が完了したら, 精度の検証を行います.

* `LinearRegression` クラスは `score()` メソッドを提供しており, 入力値と目標値を与えると訓練済みのモデルを用いて計算した**決定係数 (coefficient of determination)**という指標を返します.

* 使用するデータセットのサンプルサイズを $N$, $n$ 個目の入力値に対する予測値を $y_{n}$, 目標値を $t_n$, そしてそのデータセット内の全ての目標値の平均値を $\bar{t}$ としたとき, 指標は下記のように表される.

$$
R^{2} = 1 - \dfrac{\sum_{n=1}^{N}\left( t_{n} - y_{n} \right)^{2}}{\sum_{n=1}^{N}\left( t_{n} - \bar{t} \right)^{2}}
$$

* 決定係数の最大値は 1 であり. 値が大きいほどモデルが与えられたデータに当てはまっていることを表します.

* Once the model is trained, it is tested for accuracy.

* The `LinearRegression` class provides a `score()` method that, given input and target values, returns a **coefficient of determination** calculated using the trained model.

* Assuming that the sample size of the dataset used is $N$, the predicted value for the $n$th input value is $y_{n}$, the target value is $t_n$, and the average of all target values in the dataset is $\bar{t}$, the coefficient is expressed as follows.

$$
R^{2} = 1 - \dfrac{\sum_{n=1}^{N}\left( t_{n} - y_{n} \right)^{2}}{\sum_{n=1}^{N}\left( t_{n} - \bar{t} \right)^{2}}
$$

* The maximum value of the coefficient of determination is 1. The larger the value, the better the model fits the given data.

In [None]:
# 精度の検証/Accuracy Verification
reg_model.score(x_train, t_train)

0.7645451026942549

* 訓練済みモデルを用いて訓練用データセットで計算した決定係数は, およそ 0.765 でした.

* The coefficient of determination calculated on the training dataset using the trained model was approximately 0.765.

### 新しい入力値に対する予測の計算（推論）/Computation of predictions for new input values (inference)

* 訓練が終わったモデルに, 新たな入力値を与えて予測値を計算させるには, `predict()` メソッドを用います.

* 訓練済みのモデルを使ったこのような計算は、**推論 (inference)** と呼ばれることがあります.

* 今回は, 訓練済みモデル `reg_model` を用いて, テスト用データセットからサンプルを 1 つ取り出し, 推論を行ってみます.

* このとき`predict()` メソッドに与える入力値の ndarray の形が `(サンプルサイズ, 各サンプルの次元数)` となっている必要があることに気をつけてください.

* To compute predictions for a trained model given new input values, use the method `predict()`.

* Such a computation with a trained model is sometimes called **inference**.

* In this case, we will use a trained model `reg_model` to perform inference on a sample from a test dataset.

* Note that the ndarray of input values to the `predict()` method must be in the shape of `(sample size, number of dimensions of each sample)`.

In [None]:
reg_model.predict(x_test[:1])

array([24.9357079])

* この入力に対する目標値を見てみます.

* Let's look at the target value for this input.

In [None]:
t_test[0]

22.6

* 22.6 という目標値に対して, およそ 24.94 という予測値が返ってきました.

* The target value of 22.6 was returned as a prediction of approximately 24.94.

### テスト用データセットを用いた評価/Evaluation using test datasets

* 訓練済みモデルの性能をテスト用データセットを使って決定係数を計算することで評価してみます.

* Evaluate the performance of the trained model by computing the coefficient of determination using a test dataset.

In [None]:
reg_model.score(x_test, t_test)

0.6733825506400171

* 訓練用データセットを用いて算出した値（およそ 0.765）よりも、低い値がでてしまいました.

* 教師あり学習の目的は, 訓練時には見たことがない新しいデータ, ここではテスト用データセットに含まれているデータに対しても高い性能を発揮するように, モデルを訓練することです.

* 逆に, 訓練時に用いたデータに対してはよく当てはまっていても, 訓練時に用いなかったデータに対しては予測値と目標値の差異が大きくなってしまう現象を**過学習 (overfitting)** と言います.

* 過学習を防ぐために, 色々な方法が研究されています.

* ここでは, データに前処理を行い, テスト用データセットを用いて計算した決定係数を改善します.

* This value is lower than the value calculated using the training dataset (approximately 0.765).

* The purpose of supervised learning is to train the model to perform well on new data that has not been seen during training, in this case data contained in the test dataset.

* Conversely, **overfitting** is a phenomenon in which the model performs well on the data used in training, but the difference between the predictions and the target values becomes large on the data not used in training.

* Various methods have been studied to prevent overfitting.

* Here, we pre-process the data and improve the coefficients of determination computed on a test dataset.

## 各ステップの改善/Improvement of each step

### Step 1 の改善：前処理/Step 1 Improvement: preprocessing

* **前処理 (preprocessing)** とは, 欠損値の補完, 外れ値の除去, 特徴量選択, 正規化などの処理を訓練を開始する前にデータセットに対して行うことです.

* 手法やデータに合わせた前処理が必要となるため, 適切な前処理を行うためには手法そのものについて理解している必要があるだけでなく, 使用するデータの特性についてもよく調べておく必要があります.

* 今回のデータは, 入力値の値の範囲が CRIM, ZN, INDUS, ... といった指標ごとに大きく異なっています.

* そこで, 各入力変数ごとに平均が 0, 分散が 1 となるように値をスケーリングする**標準化 (standardization)** をおこなってみます.

* scikit-learn では `sklearn.preprocessing` というモジュール以下に `StandardScaler` というクラスが定義されています.

* 今回は, これを用いてデータセットに対し標準化を適用します.

* `StandardScaler` クラスを読み込み, インスタンスを作成します。

* **preprocessing** is the process of performing missing value completion, outlier removal, feature selection, normalization, etc. on a dataset before starting the training.

* Since the preprocessing must be tailored to the method and the data, in order to perform appropriate preprocessing, it is necessary to have a good understanding of the method itself as well as the characteristics of the data to be used.

* The range of values of input variables is very different for each indicator, such as CRIM, ZN, INDUS, ....

* Therefore, we will perform a **standardization** for each input variable, scaling the values so that the mean is 0 and the variance is 1.

* In scikit-learn, the class `StandardScaler` is defined under the module `sklearn.preprocessing`.

* This time, we will use this class to apply standardization to a dataset.

* Load the `StandardScaler` class and create an instance.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

* 標準化を行うためには, データセットの各入力変数ごとの平均と分散の値を計算する必要があります.

* この計算は, `scaler` オブジェクトがもつ `fit()` メソッドを用いて行います.

* 引数には, 平均・分散を計算したい入力値の ndarray を渡します.

* In order to perform standardization, we need to compute the mean and variance for each input variable of the dataset.

* This calculation is done using the `fit()` method of the `scaler` object.

* The argument is an ndarray of the input values for which you want to compute the mean and * variance.

In [None]:
scaler.fit(x_train)

StandardScaler()

* すべてのサンプルではなく, 訓練用データセットのみを用いてこれらの値を算出します.

* 先ほどの `fit()` の実行の結果算出された平均値が `mean_` 属性に, 分散が `var_` 属性に格納されているので, 確認してみます.

* We calculate these values using only the training dataset, not the whole sample.

* Let's check the mean and variance calculated from the previous run of `fit()`, which are stored in the attribute `mean_` and `var_`, respectively.

In [None]:
# 平均/mean
scaler.mean_

array([3.35828432e+00, 1.18093220e+01, 1.10787571e+01, 6.49717514e-02,
       5.56098305e-01, 6.30842655e+00, 6.89940678e+01, 3.76245876e+00,
       9.35310734e+00, 4.01782486e+02, 1.84734463e+01, 3.60601186e+02,
       1.24406497e+01])

In [None]:
# 分散/variance
scaler.var_

array([6.95792305e+01, 5.57886665e+02, 4.87753572e+01, 6.07504229e-02,
       1.33257561e-02, 4.91423928e-01, 7.83932705e+02, 4.26314655e+00,
       7.49911344e+01, 2.90195600e+04, 4.93579208e+00, 7.31040807e+03,
       4.99634123e+01])

* これらの平均・分散の値を使ってデータセットに含まれる値に標準化を施すには, `transform()` メソッドを使用します.

* To standardize the values in the dataset using these mean and variance values, use the method `transform()`.

In [None]:
x_train_scaled = scaler.transform(x_train)
x_test_scaled  = scaler.transform(x_test)

*標準化を行ったデータを使って同じモデルを訓練してみます.

*Let's train the same model using the standardized data.

In [None]:
reg_model = LinearRegression()

# モデルの訓練/Training of models
reg_model.fit(x_train_scaled, t_train)

LinearRegression()

In [None]:
# 精度の検証（訓練データ）/Verification of accuracy (training data)
reg_model.score(x_train_scaled, t_train)

0.7645451026942549

In [None]:
# 精度の検証（テストデータ）/Verification of accuracy (test data)
reg_model.score(x_test_scaled, t_test)

0.6733825506400195

* 結果は変わりませんでした.

* べき変換をする別の前処理を適用し, 再度同じモデルの訓練を行ってみます.

* The result did not change.

* We try to train the same model again, applying another preprocessing which performs a power law transformation.

In [None]:
from sklearn.preprocessing import PowerTransformer

scaler = PowerTransformer()
scaler.fit(x_train)

x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

reg_model = LinearRegression()
reg_model.fit(x_train_scaled, t_train)

  loglike = -n_samples / 2 * np.log(x_trans.var())


LinearRegression()

In [None]:
# 訓練データでの決定係数/Coefficient of determination on training data
reg_model.score(x_train_scaled, t_train)

0.7859862563286062

In [None]:
# テストデータでの決定係数/Coefficient of determination on test data
reg_model.score(x_test_scaled, t_test)

0.7002856551689584

* 結果が改善しました.

* Results have improved.

#### パイプライン化/pipelining

* 前処理用の `scaler` と 重回帰分析を行う `reg_model` は, 両方 `fit()` メソッドを持っていました.

* scikit-learn には, パイプラインと呼ばれる一連の処理を統合できる機能があります。

* これを用いてこれらの処理をまとめてみます.

* Both `scaler` for preprocessing and `reg_model` for multiple regression analysis had a `fit()` method.

* scikit-learn has a feature called pipeline that allows you to integrate a series of processes.

* Use this to put these processes together.

In [None]:
from sklearn.pipeline import Pipeline

# パイプラインの作成 (scaler -> svr)/Create pipeline (scaler -> svr)
pipeline = Pipeline([
    ('scaler', PowerTransformer()),
    ('reg', LinearRegression())
])

In [None]:
# scaler および reg を順番に使用/Use scaler and reg in sequence
pipeline.fit(x_train, t_train)

  loglike = -n_samples / 2 * np.log(x_trans.var())


Pipeline(steps=[('scaler', PowerTransformer()), ('reg', LinearRegression())])

In [None]:
# 訓練用データセットを用いた決定係数の算出/Calculation of coefficient of determination using training dataset
pipeline.score(x_train, t_train)

0.7859862563286062

In [None]:
# テスト用データセットを用いた決定係数の算出/Calculation of coefficients of determination using test dataset
linear_result = pipeline.score(x_test, t_test)

linear_result

0.7002856551689584

* パイプライン化を行うことで, `x_train_scaled` のような中間変数を作成することなく, 同じ処理が行えるようになりました.

* これによってコード量が減らせるだけでなく, 評価を行う前にテスト用データセットに対しても訓練用データセットに対して行ったのと同様の前処理を行うことを忘れてしまうといったミスを防ぐことができます.

* Pipelining allows us to do the same without creating intermediate variables like `x_train_scaled`.

* This not only reduces the amount of code, but also avoids the mistake of forgetting to do the same preprocessing on the test dataset before evaluation as we did on the training dataset.