# オブジェクト指向の活用

これまでの課題では触れてきませんでしたが、StandardScalerやLinearRegressionのような 

**クラス** と呼ばれるものがPythonなどのプログラム言語では利用できます。


クラスの構文は、オブジェクト指向と呼ばれる考え方を利用したプログラミングの基本的な道具になります。


この課題ではこれまでに既に登場していたクラスを例に、クラスを活用することでどのようなことができるのかを見て学んでいきます。

そして課題の後半では**StandardScalerのクラスをスクラッチで自作します。**


### scikit-learnの標準化クラス

scikit-learnに用意されている標準化を行うためのクラスStandardScalerを例に見ていきます。

サンプルコードを用意しましたので、これを利用しながら理解していきます。


sklearn.preprocessing.StandardScaler — scikit-learn 0.21.3 documentation


### 《サンプルコード》



In [91]:
# サンプルコード
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]
scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


#### **インスタンス化**


クラスを使う際はまず以下のようなコードを書きますが、これを インスタンス化 と呼びます。


**scaler = StandardScaler()** 


StandardScalerというクラスオブジェクトから、scalerと名前をつけたインスタンスオブジェクトが作られました。



**《クラスの命名法》**


#### Pythonではクラス名は頭文字が大文字、他は小文字という命名法がPEP8により定められています。


**単語間にアンダースコアは入れません。**これを CapWords 方式と呼びます。


※はじめに — pep8-ja 1.0 ドキュメント クラスの名前


こういった形式のものはクラスだと判断することができます。


**《インスタンスは複数作れる》**


あるクラスオブジェクトからは複数のインスタンスオブジェクトを作成することが可能です。



In [92]:
# サンプルコード
scaler0 = StandardScaler()
scaler1 = StandardScaler()
scaler2 = StandardScaler()

## 【問題1】これまで利用してきたクラスの列挙


クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。

この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。


Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

In [93]:
# Pandas、matplotlib、scikit-learnそれぞれで利用したクラスを表示
# 回答
print('1. Pandasで利用したクラス')
print('DataFrameクラスでdf(データフレーム型)を定義')

print('---------------------------')
print('2. matplotlibで利用したクラス')
print('Figureでグラフのフレームを定義')

print('---------------------------')
print('3. scikit-learnで利用したクラス')

print('LinearRegression()のクラスで線形回帰のインスタンスを定義')
print('DecisionTreeRegressor()のクラスで決定木のインスタンスを定義')
print('RandomForestRegressor()のクラスでランダムフォレストのインスタンスを定義')

1. Pandasで利用したクラス
DataFrameクラスでdf(データフレーム型)を定義
---------------------------
2. matplotlibで利用したクラス
Figureでグラフのフレームを定義
---------------------------
3. scikit-learnで利用したクラス
LinearRegression()のクラスで線形回帰のインスタンスを定義
DecisionTreeRegressor()のクラスで決定木のインスタンスを定義
RandomForestRegressor()のクラスでランダムフォレストのインスタンスを定義


## 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙


これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。


**最低でもそれぞれ5つ以上答えてください。**


**《ndarrayやstrもインスタンス》**


ドットをつけるというと、NumPyのndarrayに対してndarray.shapeやndarray.sum()のような使い方は何度も利用してきたかと思います。

これは、ndarrayもインスタンスオブジェクトであり、<span style="font-size:20px">**.shapeはインスタンス変数、sum()はメソッド**</span>だったということです。


Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。


（例）

In [94]:
print('5. データ構造 — Python 3.7.4 ドキュメント 5.1. リスト型についてもう少し')
l = ['a']
l.append('b') # listのappendメソッド
print('-------------------------------------------------------')
print('4. 組み込み型 — Python 3.7.4 ドキュメント 文字列メソッド')
s = 'Hello, World!'
s.find('W') # strのfindメソッド


5. データ構造 — Python 3.7.4 ドキュメント 5.1. リスト型についてもう少し
-------------------------------------------------------
4. 組み込み型 — Python 3.7.4 ドキュメント 文字列メソッド


7

#### **インスタンス変数をメソッドが利用**

最終的に以下のようにして標準化を行います。


**X_std = scaler.transform(X)**


これはfitメソッドで計算したことでインスタンス変数mean_やvar_に保存されていた値を使い、Xを変換したということです。


このようにクラスには複数のメソッドやインスタンス変数が存在し、これらを組み合わせていろいろな機能を実現します。



In [95]:
# これまでの課題で利用してきたメソッドやインスタンス変数について記載する。
# 最低でもそれぞれ5つ

# 回答
# メソッド
print('● これまで利用したメソッド')
print('1. Pandas --- df.discrib() === 平均、標準偏差、四分位を一度に表示')
print('2. Pandas --- df.sort_values() === dfの列を並び替える')
print('3. NumPy --- np.random.seed(0) === 乱数の作成時に数値がバラつかないようにする')
print('4. NumPy --- np.random.multivariate_normal(平均値, 共分散行列, 個数) === 乱数を作成')
print('5. matplotlib --- plt.hist() === ヒストグラムを作成')



print('--------------------------------------')
# インスタンス変数
print('● これまで利用したインスタンス変数')
print('1. Pandas --- DataFrame.values === DataFrameをNumPuのndarrayに変換')
print('2. Pandas --- DataFrame.loc === DataFrameのカラム、インデックスの名前を指定して抽出')
print('3. Pandas --- DataFrame.iloc === DataFrameのカラム、インデックスの番号を指定して抽出')
print('4. NumPy --- ndarray.T === 二次元配列の転置行列を取得する')
print('5. NumPy --- ndarray.dtype === 要素の型を確認（int64,float64など')


● これまで利用したメソッド
1. Pandas --- df.discrib() === 平均、標準偏差、四分位を一度に表示
2. Pandas --- df.sort_values() === dfの列を並び替える
3. NumPy --- np.random.seed(0) === 乱数の作成時に数値がバラつかないようにする
4. NumPy --- np.random.multivariate_normal(平均値, 共分散行列, 個数) === 乱数を作成
5. matplotlib --- plt.hist() === ヒストグラムを作成
--------------------------------------
● これまで利用したインスタンス変数
1. Pandas --- DataFrame.values === DataFrameをNumPuのndarrayに変換
2. Pandas --- DataFrame.loc === DataFrameのカラム、インデックスの名前を指定して抽出
3. Pandas --- DataFrame.iloc === DataFrameのカラム、インデックスの番号を指定して抽出
4. NumPy --- ndarray.T === 二次元配列の転置行列を取得する
5. NumPy --- ndarray.dtype === 要素の型を確認（int64,float64など


## 【問題3】標準化クラスをスクラッチで作成

理解をより深めるため、StandardScalerをスクラッチで作成しましょう。

scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。

具体的にはfitメソッドとtransformメソッドを作ります。


今回は雛形を用意しました。クラスの作成方法は関数に近いです。

メソッドはクラスの中にさらにインデントを一段下げて記述します。


インスタンス変数を作成する際はself.mean_のようにselfを付けます。

クラスの外からscaler.mean_と書いていたscalerの部分が自分自身を表すselfになっています。


**《雛形》**



In [96]:
# 《雛形》このクラスを成形する

# 解答

class ScratchStandardScaler():
    """
    標準化のためのクラス
    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """
    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データ
        """
#         X = np.array(X)
        # 平均を求める。X配列の合計値をX配列の合計数で割る
        self.mean_ = sum(X) / len(X)
        # 分散を求める。平均を求める→Xの数値から平均を引く→その数値を２乗する→合計数で割る
        self.var_ = (X - (sum(X) / len(X))) ** 2 / len(X)

    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量
        Returns
        ----------
        answer : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        # 分散 = X - 平均→その数値を２乗→合計数で割る
        X_var_ = (X - (sum(X) / len(X))) ** 2 / len(X) #分散
        X_scaled = np.sqrt(X_var_) #標準偏差(np.sqrtで求める)
        answer = (X - (sum(X) / len(X))) / X_scaled #標準化 = （X - 平均) / 標準偏差

        return answer

from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
my_scratch_scaler = ScratchStandardScaler()
my_scratch_scaler.fit(X)
print(f'スクラッチで作ったクラスで求めた平均は{my_scratch_scaler.mean_}です')
print('~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~')
print(f'スクラッチで作ったクラスで求めた分散は{my_scratch_scaler.var_}です')
print('~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~')


my_scratch_scaler.transform(X)
print(f'スクラッチで作ったクラスで求めた標準化の数値は{my_scratch_scaler.transform(X)}です')




スクラッチで作ったクラスで求めた平均は[4.86 3.31 1.45 0.22]です
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
スクラッチで作ったクラスで求めた分散は[[5.760e-03 3.610e-03 2.500e-04 4.000e-05]
 [1.600e-04 9.610e-03 2.500e-04 4.000e-05]
 [2.560e-03 1.210e-03 2.250e-03 4.000e-05]
 [6.760e-03 4.410e-03 2.500e-04 4.000e-05]
 [1.960e-03 8.410e-03 2.500e-04 4.000e-05]
 [2.916e-02 3.481e-02 6.250e-03 3.240e-03]
 [6.760e-03 8.100e-04 2.500e-04 6.400e-04]
 [1.960e-03 8.100e-04 2.500e-04 4.000e-05]
 [2.116e-02 1.681e-02 2.500e-04 4.000e-05]
 [1.600e-04 4.410e-03 2.500e-04 1.440e-03]]です
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
スクラッチで作ったクラスで求めた標準化の数値は[[ 3.16227766  3.16227766 -3.16227766 -3.16227766]
 [ 3.16227766 -3.16227766 -3.16227766 -3.16227766]
 [-3.16227766 -3.16227766 -3.16227766 -3.16227766]
 [-3.16227766 -3.16227766  3.16227766 -3.16227766]
 [ 3.16227766  3.16227766 -3.16227766 -3.16227766]
 [ 3.16227766  3.16227766  3.16227766  3.16227766]
 [-3.16227766  3.16227766 -3.16227

In [97]:
# ★実行結果★
import numpy as np
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)

print('---------------------------------------')
print('以下はサンプルの実行値')
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

---------------------------------------
以下はサンプルの実行値
平均 : [4.86 3.31 1.45 0.22]
分散 : [[5.760e-03 3.610e-03 2.500e-04 4.000e-05]
 [1.600e-04 9.610e-03 2.500e-04 4.000e-05]
 [2.560e-03 1.210e-03 2.250e-03 4.000e-05]
 [6.760e-03 4.410e-03 2.500e-04 4.000e-05]
 [1.960e-03 8.410e-03 2.500e-04 4.000e-05]
 [2.916e-02 3.481e-02 6.250e-03 3.240e-03]
 [6.760e-03 8.100e-04 2.500e-04 6.400e-04]
 [1.960e-03 8.100e-04 2.500e-04 4.000e-05]
 [2.116e-02 1.681e-02 2.500e-04 4.000e-05]
 [1.600e-04 4.410e-03 2.500e-04 1.440e-03]]
[[ 3.16227766  3.16227766 -3.16227766 -3.16227766]
 [ 3.16227766 -3.16227766 -3.16227766 -3.16227766]
 [-3.16227766 -3.16227766 -3.16227766 -3.16227766]
 [-3.16227766 -3.16227766  3.16227766 -3.16227766]
 [ 3.16227766  3.16227766 -3.16227766 -3.16227766]
 [ 3.16227766  3.16227766  3.16227766  3.16227766]
 [-3.16227766  3.16227766 -3.16227766  3.16227766]
 [ 3.16227766  3.16227766  3.16227766 -3.16227766]
 [-3.16227766 -3.16227766 -3.16227766 -3.16227766]
 [ 3.16227766 -3.16227766 

ライブラリのソースコードを確認
scikit-learnの場合は公式ドキュメントの右上にソースコードへのリンクがあります。


![image.png](attachment:cc4948e3-89a6-47b8-875b-f1bc48b51c9e.png)


[source]


どのようなコードになっていたかを確認してみましょう。

（問題3に取り組んだ後に見ることを推奨します）スクラッチで作成したものよりも全体的にコードが長いのではないかと思います。

inverse_transformメソッドのように作成しなかったものもありますが、それだけではありません。

例えば以下のように、warning文が記述されているなどします。

どのようなコードになっていたかを確認してみましょう。

（問題3に取り組んだ後に見ることを推奨します）スクラッチで作成したものよりも全体的にコードが長いのではないかと思います。

inverse_transformメソッドのように作成しなかったものもありますが、

それだけではありません。例えば以下のように、warning文が記述されているなどします。

In [98]:
# 問題文のサンプル
# if not isinstance(y, string_types) or y != 'deprecated':
#     warnings.warn("The parameter y on transform() is "
#                   "deprecated since 0.19 and will be removed in 0.21",
#                   DeprecationWarning)

しかし、特に今注目したいのは次の特殊メソッドについてです。


**特殊メソッド**

ソースコードの中に含まれる、まだ説明していない重要な部分が以下です。



このような__init__というメソッドは、どのクラスにも共通して置かれる **コンストラクタ** と呼ばれるメソッドです。

In [90]:
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy

今回のスクラッチではcopy、with_mean、with_stdなどのパラメータを省略しましたが、

このようにインスタンス化の際にパラメータを指定して保存しておくということはよくある使い方です。


コンストラクタの動作を確認するためのサンプルコードを用意しました。コンストラクタは、

インスタンス化が行われる時に自動的に実行されるという働きがあります。

こういった特殊な動作をするメソッドを、 特殊メソッド と呼びます。

In [12]:
# サンプルコード

class ExampleClass():
    """
    説明用の簡単なクラス
    Parameters
    ----------
    value : float or int
        初期値
    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8


## 【問題4】 四則演算を行うクラスの作成

上記ExampleClassは足し算のメソッドを持っていますが、これに**引き算、掛け算、割り算のメソッドを加えてください。**


コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。


クラス名や説明文も適切に書き換えてください。

In [70]:
class ExampleClass():
    """
    説明用の簡単なクラス
    Parameters
    ----------
    value : float or int
        初期値
    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
        
    def minus(self, value3):
        """
        受け取った引数をself.valueから引く
        """
        self.value -= value3
    
    def mult(self, value4):
        """
        受け取った引数をself.valueと掛ける
        """
        self.value *= value4
    def divide(self, value5):
        """
        受け取った引数でself.valueをわる
        """
        self.value /= value5

# 解答
example = ExampleClass(5)
print("value : {}".format(example.value))
print('●----------------------------●')
example.add(3)
print("足し算：value : {}".format(example.value))
print('●----------------------------●')
example.minus(3)
print("引き算：value : {}".format(example.value))
print('●----------------------------●')
example.mult(3)
print("掛け算：value : {}".format(example.value))
print('●----------------------------●')
example.divide(3)
print("割り算：value : {}".format(example.value))

# （注）xの値が更新されているため、直前のxの値で計算されている

初期値5が設定されました
value : 5
●----------------------------●
足し算：value : 8
●----------------------------●
引き算：value : 5
●----------------------------●
掛け算：value : 15
●----------------------------●
割り算：value : 5.0
