# week4-3 オブジェクト指向の活用

# week4授業前課題3 オブジェクト指向の活用
# このテキストについて
## テキストの目的
クラスを利用したコードを読み書きできるようにする
## どのように学ぶか
これまで使用してきたクラスを元にしてオブジェクト指向を理解していきます。

# オブジェクト指向
これまでの課題では触れてきませんでしたが、**StandardScaler**や**LinearRegression**のような **クラス** と呼ばれるものがPythonなどのプログラム言語では利用できます。

クラスの構文は、オブジェクト指向と呼ばれる考え方を利用したプログラミングの基本的な道具になります。

この課題ではこれまでに既に登場していたクラスを例に、クラスを活用することでどのようなことができるのかを見て学んでいきます。そして課題の後半ではStandardScalerのクラスをスクラッチで自作します。

# scikit-learnの標準化クラス
scikit-learnに用意されている標準化を行うためのクラスStandardScalerを例に見ていきます。サンプルコードを用意しましたので、これを利用しながら理解していきます。

sklearn.preprocessing.StandardScaler — https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html                    

**《サンプルコード》**

In [1]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


## インスタンス化
クラスを使う際はまず以下のようなコードを書きますが、これを **インスタンス化** と呼びます。            
**scaler = StandardScaler()**                              
StandardScalerというクラスオブジェクトから、scalerと名前をつけたインスタンスオブジェクトが作られました。

### 《クラスの命名法》
Pythonではクラス名は**頭文字が大文字、他は小文字**という命名法がPEP8により定められています。**単語間にアンダースコアは入れません。**これを**CapWords** 方式と呼びます。

はじめに — pep8-ja 1.0 ドキュメント クラスの名前https://pep8-ja.readthedocs.io/ja/latest/#id31                 

こういった形式のものはクラスだと判断することができます。

### 《インスタンスは複数作れる》
あるクラスオブジェクトからは複数のインスタンスオブジェクトを作成することが可能です。

In [None]:
scaler0 = StandardScaler()
scaler1 = StandardScaler()
scaler2 = StandardScaler()

# 【問題１】これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。

Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。
### pandas
* DataFrame
* Seies

###  matplotlib
* pyplot

### scikit-learn
* LogisticRegression
* KNeighborsClassifier
* StandardScaler
* svm

## メソッド
インスタンス化を行った後には、**scaler.fit(X)**のような **メソッド** の実行ができます。StandardScalerのfitメソッドは後でスケーリングに使われる平均と標準偏差を計算する機能があります。

## インスタンス変数（アトリビュート）
fitメソッドにより平均と標準偏差が計算されましたが、見た目には変化があるわけではありません。しかし、scalerインスタンスの内部では計算結果が保存されています。こういった**インスタンスの中で値を保存するもの**を **インスタンス変数** や **アトリビュート（属性）** と呼びます。ここで平均がscaler.mean_、標準偏差の2乗した値である分散がscaler.var_に保存されています。

以下のようにprint文で出力させることができます。

In [None]:
print("平均 : {}".format(scaler.mean_)) # 平均 : [4.86 3.31 1.45 0.22]
print("分散 : {}".format(scaler.var_)) # 分散 : [0.0764 0.0849 0.0105 0.0056]

**《メソッドとインスタンス変数の命名法》**

メソッドやインスタンス変数の命名は関数と同様に、**全て小文字**で行います。**単語をつなぐときにはアンダースコア**を入れます。

はじめに — pep8-ja 1.0 ドキュメント メソッド名とインスタンス変数 https://pep8-ja.readthedocs.io/ja/latest/#id37   

# 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙
これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。
最低でもそれぞれ5つ以上答えてください。

**《ndarrayやstrもインスタンス》**

ドットをつけるというと、NumPyのndarrayに対してndarray.shapeやndarray.sum()のような使い方は何度も利用してきたかと思います。これは、ndarrayもインスタンスオブジェクトであり、shapeはインスタンス変数、sumはメソッドだったということです。

Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。

（例）

5. データ構造 — Python 3.7.4 ドキュメント 5.1. リスト型についてもう少し https://docs.python.org/ja/3/tutorial/datastructures.html#more-on-lists 

In [None]:
l = ['a']
l.append('b') # listのappendメソッド

4. 組み込み型 — Python 3.7.4 ドキュメント 文字列メソッド https://docs.python.org/ja/3/library/stdtypes.html#string-methods

In [None]:
s = 'Hello, World!'
s.find('W') # strのfindメソッド

# 【問題3】標準化クラスをスクラッチで作成
理解をより深めるため、StandardScalerをスクラッチで作成しましょう。scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。具体的にはfitメソッドとtransformメソッドを作ります。

今回は雛形を用意しました。クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

インスタンス変数を作成する際は**self.mean_**のように**self**を付けます。クラスの外から**scaler.mean_**と書いていた**scaler**の部分が自分自身を表す**self**になっています。

**《雛形》**

In [2]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """

    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            学習データ
        """
        
        self.mean_ = np.mean(X,axis=0)
        self.var_ = np.var(X,axis=0)

        pass

    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        X_scaled = (X - self.mean_)/self.var_**(1/2)
        
        return X_scaled

以下のコードが実行できるようにしましょう。

In [3]:
import numpy as np
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]
[[ 0.86828953  0.65207831 -0.48795004 -0.26726124]
 [ 0.14471492 -1.06391725 -0.48795004 -0.26726124]
 [-0.57885968 -0.37751902 -1.46385011 -0.26726124]
 [-0.94064699 -0.72071813  0.48795004 -0.26726124]
 [ 0.50650222  0.99527742 -0.48795004 -0.26726124]
 [ 1.95365143  2.02487476  2.43975018  2.40535118]
 [-0.94064699  0.3088792  -0.48795004  1.06904497]
 [ 0.50650222  0.3088792   0.48795004 -0.26726124]
 [-1.66422159 -1.40711636 -0.48795004 -0.26726124]
 [ 0.14471492 -0.72071813  0.48795004 -1.60356745]]


### sklearnのStandardScalerと比べてみる

In [4]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_std_sk = sc.fit_transform(X)
X_std_sk

array([[ 0.86828953,  0.65207831, -0.48795004, -0.26726124],
       [ 0.14471492, -1.06391725, -0.48795004, -0.26726124],
       [-0.57885968, -0.37751902, -1.46385011, -0.26726124],
       [-0.94064699, -0.72071813,  0.48795004, -0.26726124],
       [ 0.50650222,  0.99527742, -0.48795004, -0.26726124],
       [ 1.95365143,  2.02487476,  2.43975018,  2.40535118],
       [-0.94064699,  0.3088792 , -0.48795004,  1.06904497],
       [ 0.50650222,  0.3088792 ,  0.48795004, -0.26726124],
       [-1.66422159, -1.40711636, -0.48795004, -0.26726124],
       [ 0.14471492, -0.72071813,  0.48795004, -1.60356745]])

## ライブラリのソースコードを確認
scikit-learnの場合は公式ドキュメントの右上にソースコードへのリンクがあります。              
source https://github.com/scikit-learn/scikit-learn/blob/7389dba/sklearn/preprocessing/data.py#L480             
どのようなコードになっていたかを確認してみましょう。（問題3に取り組んだ後に見ることを推奨します）スクラッチで作成したものよりも全体的にコードが長いのではないかと思います。**inverse_transformメソッド**のように作成しなかったものもありますが、それだけではありません。例えば以下のように、warning文が記述されているなどします。



In [9]:
if not isinstance(y, string_types) or y != 'deprecated':
    warnings.warn("The parameter y on transform() is "
                  "deprecated since 0.19 and will be removed in 0.21",
                  DeprecationWarning)

NameError: name 'y' is not defined

しかし、特に今注目したいのは次の特殊メソッドについてです。

## 特殊メソッド
ソースコードの中に含まれる、まだ説明していない重要な部分が以下です。
このような**__init__**というメソッドは、どのクラスにも共通して置かれる コンストラクタ と呼ばれるメソッドです。

In [5]:
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy

今回のスクラッチでは**copy**、**with_mean**、**with_std**などのパラメータを省略しましたが、このようにインスタンス化の際にパラメータを指定して保存しておくということはよくある使い方です。

コンストラクタの動作を確認するためのサンプルコードを用意しました。コンストラクタは、インスタンス化が行われる時に自動的に実行されるという働きがあります。こういった特殊な動作をするメソッドを、**特殊メソッド**と呼びます。

# 【問題4】 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。

コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。

クラス名や説明文も適切に書き換えてください。

In [6]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
        
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        add_val = self.value + value2
        return add_val
    
    def minus(self,value2):
        """受け取った引数をself.valueから引く"""
        dec_val = self.value - value2
        return dec_val
    
    def multiplied(self,value2):
        """受け取った引数をself.valueにかける"""
        multi_val = self.value * value2
        return multi_val
    
    def divided(self,value2):
        """self.valueを受けっと他引数で割る"""
        divided_val = self.value / value2
        return divided_val

In [7]:
# 足し算の実行
example = ExampleClass(5)#ExampleClassをインスタンス化
print("初期値self.value : {}".format(example.value))#初期値の呼び出し
print("計算結果 : {}".format(example.add(3)))#足し算メソッドの実行

初期値5が設定されました
初期値self.value : 5
計算結果 : 8


In [8]:
# 引き算の実行
print("計算結果 : {}".format(example.minus(3)))

計算結果 : 2


In [9]:
# 掛け算の実行
print("計算結果 : {}".format(example.multiplied(3)))

計算結果 : 15


In [10]:
# 割り算の実行
print("計算結果 : {}".format(example.divided(3)))

計算結果 : 1.6666666666666667
