# 1.この課題の目的
- クラスを利用したコードを読み書きできるようにする
以下の要件をすべて満たしていた場合、合格とします。

※Jupyter Notebookを使い課題に沿った検証や説明ができている。

# 2.オブジェクト指向
これまでの課題では触れてきませんでしたが、**StandardScaler**や**LinearRegression**のような **クラス** と呼ばれるものがPythonなどのプログラム言語では利用できます。

クラスの構文は、オブジェクト指向と呼ばれる考え方を利用したプログラミングの基本的な道具になります。

この課題ではこれまでに既に登場していたクラスを例に、クラスを活用することでどのようなことができるのかを見て学んでいきます。そして課題の後半では**StandardScaler**のクラスをスクラッチで自作します。

# 3.scikit-learnの標準化クラス
課題1で利用したscikit-learnに用意されている標準化を行うためのクラス**StandardScaler**を例に見ていきます。サンプルコードを用意しましたので、これを利用しながら理解していきます。

[sklearn.preprocessing.StandardScaler — scikit-learn 0.20.0 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

サンプルコード
>import numpy as np
>
>from sklearn.preprocessing import StandardScaler
>
>from sklearn.datasets import load_iris
>
>data = load_iris()
>
>X = data.data[:10]
>
>scaler = StandardScaler()
>
>scaler.fit(X)
>
>print("平均 :", scaler.mean_)
>
>print("分散 :", scaler.var_)
>
>X_std = scaler.transform(X)

## インスタンス化
クラスを使う際はまず以下のようなコードを書きますが、これを **インスタンス化** と呼びます。

scaler = StandardScaler()

StandardScalerというクラスオブジェクトから、scalerと名前をつけたインスタンスオブジェクトが作られました。

### クラスの命名法

Pythonではクラス名は頭文字が大文字、他は小文字という命名法がPEP8により定められています。単語間にアンダースコアは入れません。これを CapWords 方式と呼びます。

[はじめに — pep8-ja 1.0 ドキュメント クラスの名前](https://pep8-ja.readthedocs.io/ja/latest/#id31)

こういった形式のものはクラスだと判断することができます。

### インスタンスは複数作れる

あるクラスオブジェクトからは複数のインスタンスオブジェクトを作成することが可能です。

>scaler0 = StandardScaler()
>
>scaler1 = StandardScaler()
>
>scaler2 = StandardScaler()

# 【問題1】これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。

最低でもPandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

## Pandasクラス
- pandas.Datafrme

## matplotlib
- matplotlib.pyplot

## sklean-learn
- scikit-learn.model.datasets

In [1]:
import pandas as pd
import numpy as np

# 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙
これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。

最低でもそれぞれ5つ以上答えてください。

## ndarrayやstrもインスタンス

ドットをつけるというと、NumPyのndarrayに対して**ndarray.shape**や**ndarray.sum()**のような使い方は何度も利用してきたかと思います。これは、ndarrayもインスタンスオブジェクトであり、**shape**はインスタンス変数、**sum**はメソッドだったということです。

Pythonのコードに登場するデータはどれもインスタンスオブジェクトであり、listやstrもメソッドを持ちます。

## メソッドの列挙
- corrcoef()
- power()
- loc()
- iloc()
- reshape()
- fit()
- predict()
- append()
- arange()

## インスタンス変数
- RandomForestRegressor.base_estimator
- RandomForestRegressor.n_estimators
- RandomForestRegressor.estimator_params
- RandomForestRegressor.bootstrap
- RandomForestRegressor.oob_score


# 【問題3】標準化クラスをスクラッチで作成
理解をより深めるため、**StandardScaler**をスクラッチで作成しましょう。scikit-learnは使わず、NumPyなどを活用して標準化の計算を記述します。具体的には**fit**メソッドと**transform**メソッドを作ります。

今回は雛形を用意しました。クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

インスタンス変数を作成する際はself.mean_のようにselfを付けます。クラスの外からscaler.mean_と書いていたscalerの部分が自分自身を表すselfになっています。

以下のコードが実行できるようにしましょう。
>import numpy as np
>from sklearn.datasets import load_iris
>
>data = load_iris()
>X = data.data[:10]
>
>scratch_scaler = ScratchStandardScaler()
>
>scratch_scaler.fit(X)
>
>print("平均 :", scratch_scaler.mean_)
>
>print("分散 :", scratch_scaler.var_)
>
>X_std = scratch_scaler.transform(X)

## クラス定義

In [11]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """

    def fit(self, X):
        """
        標準化のために平均と分散を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            学習データ
        """

        self.mean_ = X.sum() / len(X)
        self.var_ = ((X - self.mean_).sum()) / len(X)

        pass

    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特徴量
        """
        X_scaled = (X - self.mean_) / self.var_

        return X_scaled

## コードの実行

In [18]:
import numpy as np
from sklearn.datasets import load_iris

data = load_iris()
X = data.data[:10]

scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 :", scratch_scaler.mean_)
print("分散 :", scratch_scaler.var_)
X_std = scratch_scaler.transform(X)
X_std

平均 : 9.84
分散 : -29.52


array([[0.16056911, 0.21476965, 0.28590786, 0.32655827],
       [0.16734417, 0.23170732, 0.28590786, 0.32655827],
       [0.17411924, 0.22493225, 0.28929539, 0.32655827],
       [0.17750678, 0.22831978, 0.28252033, 0.32655827],
       [0.16395664, 0.21138211, 0.28590786, 0.32655827],
       [0.1504065 , 0.20121951, 0.27574526, 0.3197832 ],
       [0.17750678, 0.21815718, 0.28590786, 0.32317073],
       [0.16395664, 0.21815718, 0.28252033, 0.32655827],
       [0.18428184, 0.23509485, 0.28590786, 0.32655827],
       [0.16734417, 0.22831978, 0.28252033, 0.3299458 ]])

## 動作の正常性の確認→手計算の値と合致した為、正常動作を確認

In [13]:
# データの読み込み
data = load_iris()
X = data.data[:10]
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [19]:
# 平均
X.sum()/len(X)

9.84

In [20]:
# 分散
((X - 9.84).sum()) / len(X)

-29.52

In [21]:
# 正規化
(5.1 - 9.84) / -29.52

0.16056910569105692

# 【課題4】 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。

また、コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合には警告文を出し、self.value=0とするコードを追加してください。

クラス名や説明文も適切に書き換えてください。

In [49]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        
        # 例外判定
        try:
            # 数値以外が入力された際にValueErrorが発生するように、valueをint型に変換
            self.value = int(value)
            
        # 数字以外が入力されれば、警告文を表示し self.value = 0とする。
        except ValueError:
            print('エラー：数値以外を入力しないでください。')
            self.value = 0
        
        else:
            print("初期値{}が設定されました".format(self.value))
        
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
        
    def sub(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value -= value2
        
    def multi(self, value2):
        """
        受け取った引数をself.valueにかける
        """
        self.value *= value2
        
    def div(self, value2):
        """
        受け取った引数でself.valueを割る
        """
        self.value /= value2

## 動作確認(コンストラクタの引数に数値を入力した場合)

In [50]:
example = ExampleClass(10)
print("value :", example.value)

example.add(3)
print("value :", example.value)

example.sub(3)
print("value :", example.value)

example.multi(10)
print("value :", example.value)

example.div(100)
print("value :", example.value)

初期値10が設定されました
value : 10
value : 13
value : 10
value : 100
value : 1.0


## 動作確認(コンストラクタの引数に数値以外を入力した場合)

In [51]:
example = ExampleClass('a')
print("value :", example.value)

エラー：数値以外を入力しないでください。
value : 0
