# Week4授業前課題3 オブジェクト指向の活用

## 1.このテキストについて


テキストの目的
クラスを利用したコードを読み書きできるようにする

どのように学ぶか
これまで使用してきたクラスを元にしてオブジェクト指向を理解していきます。

## 2.オブジェクト指向


これまでの課題では触れてきませんでしたが、StandardScalerやLinearRegressionのような クラス と呼ばれるものがPythonなどのプログラム言語では利用できます。

クラスの構文は、オブジェクト指向と呼ばれる考え方を利用したプログラミングの基本的な道具になります。

この課題ではこれまでに既に登場していたクラスを例に、クラスを活用することでどのようなことができるのかを見て学んでいきます。そして課題の後半ではStandardScalerのクラスをスクラッチで自作します。

## 3.scikit-learnの標準化クラス

scikit-learnに用意されている標準化を行うためのクラスStandardScalerを例に見ていきます。サンプルコードを用意しましたので、これを利用しながら理解していきます。

<a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html" target="blank" style="text-decoration: none">
    sklearn.preprocessing.StandardScaler — scikit-learn 0.21.3 documentation
</a>

《サンプルコード》


In [1]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


インスタンス化

クラスを使う際はまず以下のようなコードを書きますが、これを インスタンス化 と呼びます。

scaler = StandardScaler()

StandardScalerというクラスオブジェクトから、scalerと名前をつけたインスタンスオブジェクトが作られました。

《クラスの命名法》

Pythonではクラス名は頭文字が大文字、他は小文字という命名法がPEP8により定められています。単語間にアンダースコアは入れません。これを CapWords 方式と呼びます。

<a href="https://pep8-ja.readthedocs.io/ja/latest/#id31" style="text-decoration:none">
    はじめに — pep8-ja 1.0 ドキュメント クラスの名前
</a>

こういった形式のものはクラスだと判断することができます。

《インスタンスは複数作れる》

あるクラスオブジェクトからは複数のインスタンスオブジェクトを作成することが可能です。

In [2]:
scaler0 = StandardScaler()
scaler1 = StandardScaler()
scaler2 = StandardScaler()

## 【問題1】これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。

Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

#### Pandas
- Series
- DataFrame

#### matplotlib
- Figure
- Axes

#### scikit-learn
- LogisticRegression
- LinearRegression
- SVR
- LinearSVC
- DecisionTreeRegressor
- DecisionTreeClassifier
- RandomForestRegressor
- RandomForestClassifier
- KNeighborsClassifier


### メソッド
インスタンス化を行った後には、scaler.fit(X)のような メソッド の実行ができます。StandardScalerのfitメソッドは後でスケーリングに使われる平均と標準偏差を計算する機能があります。

### インスタンス変数（アトリビュート）
fitメソッドにより平均と標準偏差が計算されましたが、見た目には変化があるわけではありません。しかし、scalerインスタンスの内部では計算結果が保存されています。こういったインスタンスの中で値を保存するものを インスタンス変数 や アトリビュート（属性） と呼びます。ここで平均がscaler.mean_、標準偏差の2乗した値である分散がscaler.var_に保存されています。

以下のようにprint文で出力させることができます。

In [3]:
print("平均 : {}".format(scaler.mean_)) # 平均 : [4.86 3.31 1.45 0.22]
print("分散 : {}".format(scaler.var_)) # 分散 : [0.0764 0.0849 0.0105 0.0056]

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


《メソッドとインスタンス変数の命名法》

メソッドやインスタンス変数の命名は関数と同様に、全て小文字で行います。単語をつなぐときにはアンダースコアを入れます。

<a href="https://pep8-ja.readthedocs.io/ja/latest/#id37" style="text-decoration: none">
    はじめに — pep8-ja 1.0 ドキュメント メソッド名とインスタンス変数
</a>

## 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙
これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。

最低でもそれぞれ5つ以上答えてください。

《ndarrayやstrもインスタンス》

ドットをつけるというと、NumPyのndarrayに対してndarray.shapeやndarray.sum()のような使い方は何度も利用してきたかと思います。これは、ndarrayもインスタンスオブジェクトであり、shapeはインスタンス変数、sumはメソッドだったということです。

Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。

（例）

<a href="https://docs.python.org/ja/3/tutorial/datastructures.html#more-on-lists" style="text-decoration:none">
    5. データ構造 — Python 3.7.4 ドキュメント 5.1. リスト型についてもう少し
</a>

In [4]:
l = ['a']
l.append('b') # listのappendメソッド

<a href="https://docs.python.org/ja/3/library/stdtypes.html#string-methods" style="text-decoration:none">
    4. 組み込み型 — Python 3.7.4 ドキュメント 文字列メソッド
</a>

In [5]:
s = 'Hello, World!'
s.find('W') # strのfindメソッド

7

#### インスタンス変数
- pandas.DataFrame.values
- pandas.DataFrame.columns
- pandas.DataFrame.size
- pandas.DataFrame.loc
- pandas.Series.index
- pandas.Series.values
- pandas.Series.shape
- numpy.ndim

#### メソッド
- numpy.log()
- numpy.reshape()
- numpy.array()
- numpy.zeros()
- matplotlib.pyplot.figure()
- matplotlib.pyplot.plot()
- pandas.Series.map()
- pandas.DataFrame.apply()


### インスタンス変数をメソッドが利用
最終的に以下のようにして標準化を行います。

X_std = scaler.transform(X)

これはfitメソッドで計算したことでインスタンス変数mean_やvar_に保存されていた値を使い、Xを変換したということです。

このようにクラスには複数のメソッドやインスタンス変数が存在し、これらを組み合わせていろいろな機能を実現します。

## 【問題3】標準化クラスをスクラッチで作成
理解をより深めるため、StandardScalerをスクラッチで作成しましょう。scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。具体的にはfitメソッドとtransformメソッドを作ります。

今回は雛形を用意しました。クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

インスタンス変数を作成する際はself.mean_のようにselfを付けます。クラスの外からscaler.mean_と書いていたscalerの部分が自分自身を表すselfになっています。

《雛形》

In [6]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """
    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データ
        """
        self.mean_ =
        self.var_ =
        pass
    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        
        pass
        return X_scaled

SyntaxError: invalid syntax (<ipython-input-6-45bf71e51192>, line 21)

雛形を修正

In [7]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """
    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データ
        """
        self.mean_ = np.mean(X, axis=0)
        self.var_ = np.var(X, axis=0)
        pass
    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        
        X_scaled = (X - self.mean_) / np.sqrt(self.var_)
        
        pass
        return X_scaled

以下のコードが実行できるようにしましょう。

In [8]:
import numpy as np
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
print(np.var(X, axis=0))
scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

[0.0764 0.0849 0.0105 0.0056]
平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]
[[ 0.86828953  0.65207831 -0.48795004 -0.26726124]
 [ 0.14471492 -1.06391725 -0.48795004 -0.26726124]
 [-0.57885968 -0.37751902 -1.46385011 -0.26726124]
 [-0.94064699 -0.72071813  0.48795004 -0.26726124]
 [ 0.50650222  0.99527742 -0.48795004 -0.26726124]
 [ 1.95365143  2.02487476  2.43975018  2.40535118]
 [-0.94064699  0.3088792  -0.48795004  1.06904497]
 [ 0.50650222  0.3088792   0.48795004 -0.26726124]
 [-1.66422159 -1.40711636 -0.48795004 -0.26726124]
 [ 0.14471492 -0.72071813  0.48795004 -1.60356745]]


### ライブラリのソースコードを確認
scikit-learnの場合は公式ドキュメントの右上にソースコードへのリンクがあります。

<img src="../../img/3.png">

<a href="https://github.com/scikit-learn/scikit-learn/blob/7389dba/sklearn/preprocessing/data.py#L480" style="text-decoration:none">
   [source] 
</a>

どのようなコードになっていたかを確認してみましょう。（問題3に取り組んだ後に見ることを推奨します）スクラッチで作成したものよりも全体的にコードが長いのではないかと思います。inverse_transformメソッドのように作成しなかったものもありますが、それだけではありません。例えば以下のように、warning文が記述されているなどします。

In [9]:
# if not isinstance(y, string_types) or y != 'deprecated':
#     warnings.warn("The parameter y on transform() is "
#                   "deprecated since 0.19 and will be removed in 0.21",
#                   DeprecationWarning)

しかし、特に今注目したいのは次の特殊メソッドについてです。

### 特殊メソッド
ソースコードの中に含まれる、まだ説明していない重要な部分が以下です。

このような__init__というメソッドは、どのクラスにも共通して置かれる コンストラクタ と呼ばれるメソッドです。

In [10]:
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy

今回のスクラッチではcopy、with_mean、with_stdなどのパラメータを省略しましたが、このようにインスタンス化の際にパラメータを指定して保存しておくということはよくある使い方です。

コンストラクタの動作を確認するためのサンプルコードを用意しました。コンストラクタは、インスタンス化が行われる時に自動的に実行されるという働きがあります。こういった特殊な動作をするメソッドを、 特殊メソッド と呼びます。

《サンプルコード》

In [11]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8


## 【問題4】 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。

コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。

クラス名や説明文も適切に書き換えてください。

In [12]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
        
    def sub(self, value):
        """
        受け取った引数をself.valueから引く
        """
        self.value -= value

    def mul(self, value):
        """
        受け取った引数をself.valueに掛ける
        """
        self.value *= value
    
    def div(self, value):
        """
        受け取った引数をself.valueから割る
        """
        self.value /= value


In [13]:
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))
example.sub(4)
print("value : {}".format(example.value))
example.mul(6)
print("value : {}".format(example.value))
example.div(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8
value : 4
value : 24
value : 8.0
