# week4 事前課題３ オブジェクト指向

>scikit-learnに用意されている標準化を行うためのクラスStandardScalerを例に見ていきます。サンプルコードを用意しましたので、これを利用しながら理解していきます。

In [1]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


## インスタンス化

In [2]:
scaler0 = StandardScaler()
scaler1 = StandardScaler()
scaler2 = StandardScaler()

#StandardScalerというクラスオブジェクトから、
#scalerと名前をつけたインスタンスオブジェクトが作られました。

>《クラスの命名法》
Pythonではクラス名は頭文字が大文字、他は小文字という命名法がPEP8により定められています。単語間にアンダースコアは入れません。これを CapWords 方式と呼びます。

## 【問題1】これまで利用してきたクラスの列挙
>これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。
Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

（答）


Pandas
- DataFrame

matplotlib
- ConversionInterface

scikit-learn
- StandardScaler

## メソッド
>インスタンス化を行った後には、scaler.fit(X)のような メソッド の実行ができます。StandardScalerのfitメソッドは後でスケーリングに使われる平均と標準偏差を計算する機能があります。

## インスタンス変数（アトリビュート）
>fitメソッドにより平均と標準偏差が計算されましたが、見た目には変化があるわけではありません。しかし、scalerインスタンスの内部では計算結果が保存されています。こういったインスタンスの中で値を保存するものを インスタンス変数 や アトリビュート（属性） と呼びます。ここで平均がscaler.mean_、標準偏差の2乗した値である分散がscaler.var_に保存されています。
以下のようにprint文で出力させることができます。

In [3]:
print("平均 : {}".format(scaler.mean_)) # 平均 : [4.86 3.31 1.45 0.22]
print("分散 : {}".format(scaler.var_)) # 分散 : [0.0764 0.0849 0.0105 0.0056]

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


>《メソッドとインスタンス変数の命名法》
メソッドやインスタンス変数の命名は関数と同様に、全て小文字で行います。単語をつなぐときにはアンダースコアを入れます。

## 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙
>これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。
最低でもそれぞれ5つ以上答えてください。

>《ndarrayやstrもインスタンス》
ドットをつけるというと、NumPyのndarrayに対してndarray.shapeやndarray.sum()のような使い方は何度も利用してきたかと思います。これは、ndarrayもインスタンスオブジェクトであり、shapeはインスタンス変数、sumはメソッドだったということです。

>Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。

In [4]:
#例
l = ['a']
l.append('b') # listのappendメソッド

s = 'Hello, World!'
s.find('W') # strのfindメソッド

7

## インスタンス変数をメソッドが利用
>最終的に以下のようにして標準化を行います。
X_std = scaler.transform(X)

>これはfitメソッドで計算したことでインスタンス変数mean_やvar_に保存されていた値を使い、Xを変換したということです。
このようにクラスには複数のメソッドやインスタンス変数が存在し、これらを組み合わせていろいろな機能を実現します。

## 【問題3】標準化クラスをスクラッチで作成
>scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。具体的にはfitメソッドとtransformメソッドを作ります。

>クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

>インスタンス変数を作成する際はself.mean_のようにselfを付けます。クラスの外からscaler.mean_と書いていたscalerの部分が自分自身を表すselfになっています。

In [7]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """

    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            学習データ
        """

        self.mean_ = np.mean(X, axis = 0) #(n_features,)
        self.var_ = np.var(X, axis = 0) #(n_features,)

        pass

    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        X_scaled = (X - self.mean_) / (self.var_ ** 0.5)
        return X_scaled

In [8]:
#以下のコードが実行できるようにしましょう。
import numpy as np
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]
[[ 0.86828953  0.65207831 -0.48795004 -0.26726124]
 [ 0.14471492 -1.06391725 -0.48795004 -0.26726124]
 [-0.57885968 -0.37751902 -1.46385011 -0.26726124]
 [-0.94064699 -0.72071813  0.48795004 -0.26726124]
 [ 0.50650222  0.99527742 -0.48795004 -0.26726124]
 [ 1.95365143  2.02487476  2.43975018  2.40535118]
 [-0.94064699  0.3088792  -0.48795004  1.06904497]
 [ 0.50650222  0.3088792   0.48795004 -0.26726124]
 [-1.66422159 -1.40711636 -0.48795004 -0.26726124]
 [ 0.14471492 -0.72071813  0.48795004 -1.60356745]]


## ライブラリのソースコードを確認

## 特殊メソッド
>ソースコードの中に含まれる、まだ説明していない重要な部分が以下です。
このような__init__というメソッドは、どのクラスにも共通して置かれる コンストラクタ と呼ばれるメソッドです。

In [9]:
# sample
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy

>このようにインスタンス化の際にパラメータを指定して保存しておくということはよくある使い方です。

>コンストラクタは、インスタンス化が行われる時に自動的に実行されるという働きがあります。こういった特殊な動作をするメソッドを、 特殊メソッド と呼びます。

In [10]:
#サンプルコード
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2

example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8


## 【問題4】 四則演算を行うクラスの作成
- 上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。
- コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。
- クラス名や説明文も適切に書き換えてください。

In [39]:
import warnings

class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        assert type(value) in [int, float], "only int or float"
        self.value = value
        print("初期値{}が設定されました".format(self.value))
        if not type(self.value) == 'int' or 'float':
            warnings.warn("Value Error : type is not 'int' or 'float'.")
            
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2            
        
    def minus(self, value3):
        """
        受け取った引数をself.valueに加える
        """
        self.value -= value3
        
    def multiplication(self, value4):
        """
        受け取った引数をself.valueに加える
        """
        self.value *= value4
        
    def division(self, value5):
        """
        受け取った引数をself.valueに加える
        """
        self.value /= value5

In [40]:
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(7)
print("value : {}".format(example.value))
example.minus(8)
print("value : {}".format(example.value))
example.multiplication(2)
print("value : {}".format(example.value))
example.division(4)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 12
value : 4
value : 8
value : 2.0




In [41]:
example = ExampleClass('j')
print("value : {}".format(example.value))

AssertionError: only int or float