# Week4 授業前課題3 オブジェクト指向の活用

## オブジェクト思考
これまでの課題では触れてきませんでしたが、`StandardScaler`や`LinearRegression`のような **クラス** と呼ばれるものがPythonなどのプログラム言語では利用できます。

クラスの構文は、オブジェクト指向と呼ばれる考え方を利用したプログラミングの基本的な道具になります。

この課題ではこれまでに既に登場していたクラスを例に、クラスを活用することでどのようなことができるのかを見て学んでいきます。そして課題の後半では`StandardScaler`のクラスをスクラッチで自作します。

## scikit-learnの標準化クラス

scikit-learnに用意されている標準化を行うためのクラス`StandardScaler`を例に見ていきます。サンプルコードを用意しましたので、これを利用しながら理解していきます。

[sklearn.preprocessing.StandardScaler — scikit-learn 0.21.3 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

**《サンプルコード》**
```
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)
```
### インスタンス化
クラスを使う際はまず以下のようなコードを書きますが、これを **インスタンス化** と呼びます。

`scaler = StandardScaler()`

StandardScalerというクラスオブジェクトから、scalerと名前をつけたインスタンスオブジェクトが作られました。

**《クラスの命名法》**

Pythonではクラス名は頭文字が大文字、他は小文字という命名法がPEP8により定められています。単語間にアンダースコアは入れません。これを **CapWords** 方式と呼びます。

[はじめに — pep8-ja 1.0 ドキュメント クラスの名前](https://pep8-ja.readthedocs.io/ja/latest/#id31)

こういった形式のものはクラスだと判断することができます。

**《インスタンスは複数作れる》**

あるクラスオブジェクトからは複数のインスタンスオブジェクトを作成することが可能です。
```
scaler0 = StandardScaler()
scaler1 = StandardScaler()
scaler2 = StandardScaler()
```

## 【問題1】これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。

Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

- Pandas
    - DataFrame, Series
- matplotlib
    - figure, axes, legend, tight_layout
- scikit-learn
    - sklearn.preprocessing
        - StandardScaler
    - sklearn.linear_model
        - LogisticRegression, LinearRegression
    - sklearn.tree
        - DecisionTreeClassifier, DecisionTreeRegressor
    - sklearn.ensemble
        - RandomForestClassifier, RandomForestRegressor
    - sklearn.svm
        - SVC, SVR
    - sklearn.neighbors
        - KNeighborsClassifier

### メソッド
インスタンス化を行った後には、`scaler.fit(X)`のような メソッド の実行ができます。`StandardScaler`の`fit`メソッドは後でスケーリングに使われる平均と標準偏差を計算する機能があります。

### インスタンス変数（アトリビュート）
`fit`メソッドにより平均と標準偏差が計算されましたが、見た目には変化があるわけではありません。しかし、scalerインスタンスの内部では計算結果が保存されています。こういったインスタンスの中で値を保存するものを **インスタンス変数** や **アトリビュート（属性）** と呼びます。ここで平均が`scaler.mean_`、標準偏差の2乗した値である分散が`scaler.var_`に保存されています。

以下のようにprint文で出力させることができます。
```
print("平均 : {}".format(scaler.mean_)) # 平均 : [4.86 3.31 1.45 0.22]
print("分散 : {}".format(scaler.var_)) # 分散 : [0.0764 0.0849 0.0105 0.0056]
```

**《メソッドとインスタンス変数の命名法》**

メソッドやインスタンス変数の命名は関数と同様に、全て小文字で行います。単語をつなぐときにはアンダースコアを入れます。

[はじめに — pep8-ja 1.0 ドキュメント メソッド名とインスタンス変数](https://pep8-ja.readthedocs.io/ja/latest/#id37)

## 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙

これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。

最低でもそれぞれ5つ以上答えてください。

- pandas.DataFrame
     - インスタンス変数
         - columns, dtypes, iloc, index, loc, shape, size
     - メソッド
         - describe, head, tail, info, query
- numpy.ndarray
    - インスタンス変数
        - ndim, shape, dtype, size
    - メソッド
        - reshape, sum, max, min

**《ndarrayやstrもインスタンス》**

ドットをつけるというと、NumPyのndarrayに対して`ndarray.shape`や`ndarray.sum()`のような使い方は何度も利用してきたかと思います。これは、ndarrayもインスタンスオブジェクトであり、`shape`はインスタンス変数、`sum`はメソッドだったということです。

Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。

（例）

[5. データ構造 — Python 3.7.4 ドキュメント 5.1. リスト型についてもう少し](https://docs.python.jp/3/tutorial/datastructures.html#more-on-lists)
```
l = ['a']
l.append('b') # listのappendメソッド
```
[4. 組み込み型 — Python 3.7.4 ドキュメント 文字列メソッド](https://docs.python.jp/3/library/stdtypes.html#string-methods)
```
s = 'Hello, World!'
s.find('W') # strのfindメソッド
```

### インスタンス変数をメソッドが利用

最終的に以下のようにして標準化を行います。

`X_std = scaler.transform(X)`

これは`fit`メソッドで計算したことでインスタンス変数`mean_`や`var_`に保存されていた値を使い、Xを変換したということです。

このようにクラスには複数のメソッドやインスタンス変数が存在し、これらを組み合わせていろいろな機能を実現します。

## 【問題3】標準化クラスをスクラッチで作成

理解をより深めるため、`StandardScaler`をスクラッチで作成しましょう。scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。具体的には`fit`メソッドと`transform`メソッドを作ります。

今回は雛形を用意しました。クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

インスタンス変数を作成する際は`self.mean_`のように`self`を付けます。クラスの外から`scaler.mean_`と書いていたscalerの部分が自分自身を表すselfになっています。

In [1]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """
    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データ
        """
        self.mean_ = np.mean(X, axis=0)
        self.var_ = np.var(X, axis=0)
    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        X_scaled = (X - self.mean_) / np.sqrt(self.var_)
        return X_scaled

In [2]:
import numpy as np
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]
[[ 0.86828953  0.65207831 -0.48795004 -0.26726124]
 [ 0.14471492 -1.06391725 -0.48795004 -0.26726124]
 [-0.57885968 -0.37751902 -1.46385011 -0.26726124]
 [-0.94064699 -0.72071813  0.48795004 -0.26726124]
 [ 0.50650222  0.99527742 -0.48795004 -0.26726124]
 [ 1.95365143  2.02487476  2.43975018  2.40535118]
 [-0.94064699  0.3088792  -0.48795004  1.06904497]
 [ 0.50650222  0.3088792   0.48795004 -0.26726124]
 [-1.66422159 -1.40711636 -0.48795004 -0.26726124]
 [ 0.14471492 -0.72071813  0.48795004 -1.60356745]]


In [3]:
# StandardScalerクラスで確認
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X)
print("平均 : {}".format(scaler.mean_))
print("分散 : {}".format(scaler.var_))
X_std2 = scaler.transform(X)
print(X_std2)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]
[[ 0.86828953  0.65207831 -0.48795004 -0.26726124]
 [ 0.14471492 -1.06391725 -0.48795004 -0.26726124]
 [-0.57885968 -0.37751902 -1.46385011 -0.26726124]
 [-0.94064699 -0.72071813  0.48795004 -0.26726124]
 [ 0.50650222  0.99527742 -0.48795004 -0.26726124]
 [ 1.95365143  2.02487476  2.43975018  2.40535118]
 [-0.94064699  0.3088792  -0.48795004  1.06904497]
 [ 0.50650222  0.3088792   0.48795004 -0.26726124]
 [-1.66422159 -1.40711636 -0.48795004 -0.26726124]
 [ 0.14471492 -0.72071813  0.48795004 -1.60356745]]


### ライブラリのソースコードを確認
scikit-learnの場合は公式ドキュメントの右上にソースコードへのリンクがあります。

![Image from Gyazo](https://t.gyazo.com/teams/diveintocode/1b50849db6c38abe423d20fb5de7a8df.png)
[[source]](https://github.com/scikit-learn/scikit-learn/blob/7389dba/sklearn/preprocessing/data.py#L480)

どのようなコードになっていたかを確認してみましょう。（問題3に取り組んだ後に見ることを推奨します）スクラッチで作成したものよりも全体的にコードが長いのではないかと思います。`inverse_transform`メソッドのように作成しなかったものもありますが、それだけではありません。例えば以下のように、warning文が記述されているなどします。
```
if not isinstance(y, string_types) or y != 'deprecated':
    warnings.warn("The parameter y on transform() is "
                  "deprecated since 0.19 and will be removed in 0.21",
                  DeprecationWarning)
```
しかし、特に今注目したいのは次の特殊メソッドについてです。

### 特殊メソッド
ソースコードの中に含まれる、まだ説明していない重要な部分が以下です。

このような`__init__`というメソッドは、どのクラスにも共通して置かれる コンストラクタ と呼ばれるメソッドです。
```
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy
```
今回のスクラッチでは`copy`、`with_mean`、`with_std`などのパラメータを省略しましたが、このようにインスタンス化の際にパラメータを指定して保存しておくということはよくある使い方です。

コンストラクタの動作を確認するためのサンプルコードを用意しました。コンストラクタは、インスタンス化が行われる時に自動的に実行されるという働きがあります。こういった特殊な動作をするメソッドを、 **特殊メソッド** と呼びます。

**《サンプルコード》**

In [4]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8


## 【問題4】 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。

コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。

クラス名や説明文も適切に書き換えてください。

In [7]:
class ArithmeticClass():
    """
    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        if type(value) == int or type(value) == float:
            self.value = value
            print("初期値{}が設定されました".format(self.value))
        else:
            print('数値を入力してください')
    def add(self, value2):
        """
        足し算
        """
        if type(value2) == int or type(value2) == float:
            try:
                self.value += value2
                print('値は{}です'.format(self.value))
            except:
                pass
        else:
            print('数値を入力して下さい')
    def sub(self, value2):
        """
        引き算
        """
        if type(value2) == int or type(value2) == float:
            try:
                self.value -= value2
                print('値は{}です'.format(self.value))
            except:
                pass
        else:
            print('数値を入力して下さい') 
    def mul(self, value2):
        """
        掛け算
        """
        if type(value2) == int or type(value2) == float:
            try:
                self.value *= value2
                print('値は{}です'.format(self.value))
            except:
                pass
        else:
            print('数値を入力して下さい')
    def div(self, value2):
        """
        割り算
        """
        if type(value2) == int or type(value2) == float:
            try:
                if self.value % value2:
                    self.value /= value2
                else:
                    self.value //= value2
                print('値は{}です'.format(self.value))
            except:
                print('0以外の数値を入力して下さい')
        else:
            print('数値を入力して下さい')
arithmetic = ArithmeticClass(1)
arithmetic.add(2)
arithmetic.sub(3)
arithmetic.mul(4)
arithmetic.div(0)

初期値1が設定されました
値は3です
値は0です
値は0です
0以外の数値を入力して下さい
