# Term0 Week4 授業前課題3 
## コーディング課題：オブジェクト指向

課題1で利用したscikit-learnに用意されている標準化を行うためのクラスStandardScalerを例に見ていく。以下のサンプルコードを利用しながら理解していく。

In [38]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scaler = StandardScaler()
scaler.fit(X)
print("平均 :", scaler.mean_)
print("分散 :", scaler.var_)
X_std = scaler.transform(X)


平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


# 1. これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法が分かった。この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答える。最低でもPandas、matplotlib、scikit-learnからそれぞれ1つ以上見つける。

**Pandas**
- DataFrame: ラベル化された行と列を伴う2次元データのこと。Pandasの基本的なデータ構造となる。同じPandasの複数のSeriesオブジェクトの辞書的な（つまりcolumnsをキーとして複数のSeries取り出せる）格納庫として考えることができる。
- Series: 軸ラベルとindexを伴う1次元配列(ndarray)のこと。


**matplotlib**
- pyplot.figure: グラフを作成するウィンドウのこと。
- pyplot.Axes: グラフそのもの。インスタンス化したaxesからaxes.plot, axes.scatterなどでプロットや散布図作成を実行する。

**scikit-learn**
- KNeighborsClassifier: k近傍法アルゴリズムによる分類を行うクラス
- StandardScaler: 標準化を行うクラス
- LinearRegression: 線形回帰を行うクラス


# 2. これまで利用してきたメソッドやインスタンス変数の列挙
これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答える。最低でもそれぞれ5つ以上答える。

**インスタンス変数**  
- np.array.shape: ndarrayの行列数のタプル　　　
- StandardScaler().mean_: fittingしたデータの平均値　　
- StandardScaler().var_: fittingしたデータの分散の値　　
- pd.Series.dtypes: 格納されているデータのデータ型　　
- sklearn.linear_model.LinearRegression().coef_: 回帰直線の傾きの値　　
- sklearn.linear_model.LinearRegression().intercept_: 回帰直線の切片の値

**メソッド**  
- np.array().sum(): ndarrayの合計値を返す。合算する方向はaxisパラメータ(0 or 1)で指定する　　
- StandardScaler().fit(): 渡されたデータを標準化し、平均値と分散をインスタンス変数として保持する　　
- StandardScaler().transform(): fittingしたインスタンスにて、新たに渡されたデータを標準化する　　
- pd.DataFrame.head(): DataFrameの冒頭行（デフォルトは5行）を返す　　
- sklearn.linear_model.LinearRegression().score(): 決定係数$R^2$の値を返す

# 3. 標準化クラスをスクラッチで作成
理解をより深めるため、StandardScalerをスクラッチで作成する。scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述する。  
具体的にはfitメソッドとtransformメソッドを作る。  
作成後、scikit-learnの公式ドキュメントの右上にソースコードへのリンクがあるので確認してみる。  
スクラッチで作成したものよりも全体的にコードが長く、今回はスクラッチしなかったinverse_transformメソッドやwarning文等が記述されている。

In [39]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """

    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            学習データ
        """

        self.mean_ = X.mean(axis=0)
        self.var_ = X.var(axis=0)


    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        
        X_scaled = (X - self.mean_)/np.sqrt(self.var_)
        return X_scaled

以下のコードが実行できるようにする。

In [40]:
import numpy as np
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 :", scratch_scaler.mean_)
print("分散 :", scratch_scaler.var_)
X_std = scratch_scaler.transform(X)


平均 : [4.86 3.31 1.45 0.22]
分散 : [0.0764 0.0849 0.0105 0.0056]


# （補足）特殊メソッド
ソースコードの中に含まれる、まだ説明されていない重要な部分が以下。  
このような\_\_init\_\_というメソッドは、どのクラスにも共通して置かれるコンストラクタと呼ばれるメソッドのこと。

In [41]:
def __init__(self, copy=True, with_mean=True, with_std=True):
    self.with_mean = with_mean
    self.with_std = with_std
    self.copy = copy

コンストラクタの動作を確認するためのサンプルコードは下記の通り。  
コンストラクタは、インスタンス化が行われる時に自動的に実行されるという働きがある。  
こういった特殊な動作をするメソッドを、特殊メソッドと呼ぶ。

In [42]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2

example = ExampleClass(5)
print("value :", example.value)
example.add(3)
print("value :", example.value)

初期値5が設定されました
value : 5
value : 8


# 4. 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っているが、これに引き算、掛け算、割り算のメソッドを加える。  
また、コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合には警告文を出し、self.value=0とするコードを追加する。  
クラス名や説明文も適切に書き換える。

In [2]:
import warnings

class CalculateClass():
    """
    四則演算のクラス。
    入力された値が文字列や配列など数値以外だった場合には警告文を出す。

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    
    def __init__(self, value):
        if type(value) == int or type(value) == float:
            self.value = value
            print("初期値{}が設定されました".format(self.value))
        else:
            warnings.warn("\n引数が数値ではありません。初期値は0とします。")
            self.value = 0
        
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
    
    def subtract(self, value2):
        """
        受け取った引数をself.valueから引く
        """
        self.value -= value2
    
    def multiply(self, value2):
        """
        受け取った引数をself.valueに掛ける
        """
        self.value *= value2
    
    def divide(self, value2):
        """
        受け取った引数でself.valueを割る
        """
        self.value /= value2
    

calc = CalculateClass(4.0)
print("初期値 :", calc.value)
calc.add(3)
print("3を足した結果 :", calc.value)
calc.subtract(3)
print("3を引いた結果 :", calc.value)
calc.multiply(3)
print("3を掛けた結果 :", calc.value)
calc.divide(3)
print("3で割った結果 :", calc.value)

初期値4.0が設定されました
初期値 : 4.0
3を足した結果 : 7.0
3を引いた結果 : 4.0
3を掛けた結果 : 12.0
3で割った結果 : 4.0
