In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from scipy import stats

## 【問題1】これまで利用してきたクラスの列挙
クラスを使う際はインスタンス化を行うことと、クラスの命名法がわかりました。

この情報を元に、これまでの課題で利用してきたコードの中でどのようなクラスがあったかを答えてください。

Pandas、matplotlib、scikit-learnからそれぞれ1つ以上見つけてください。

<<列挙>>
* **Pandas**
    * pd.DataFrame
    * pd.Series


* **matplotlib**
    * plt.figure
    * plt.subplots


* **scikit-learn**
    * DecisionTreeClassifier
    * LinearRegression
    * RandomForestClassifier

## 【問題2】これまで利用してきたメソッドやインスタンス変数の列挙
これまでの課題で利用してきたコードの中でどのようなメソッドやインスタンス変数があったかを答えてください。

最低でもそれぞれ5つ以上答えてください。

《ndarrayやstrもインスタンス》

ドットをつけるというと、NumPyのndarrayに対してndarray.shapeやndarray.sum()のような使い方は何度も利用してきたかと思います。

これは、ndarrayもインスタンスオブジェクトであり、shapeはインスタンス変数、sumはメソッドだったということです。

In [2]:
arr = np.random.rand(3, 3)
df = pd.DataFrame(data=arr, columns=["A","B","C"])

インスタンス変数

In [3]:
print("numpy" + "="*50)
print()
print(arr.shape)
print(arr.size)
print(arr.ndim)
print()
print("pandas" + "="*50)
print()
print(df.columns)
print(df.index)
print(df.dtypes)


(3, 3)
9
2


Index(['A', 'B', 'C'], dtype='object')
RangeIndex(start=0, stop=3, step=1)
A    float64
B    float64
C    float64
dtype: object


メソッド

In [4]:
print("numpy" + "="*50)
print(arr.sum())
print(arr.min())
print(arr.transpose())
print()
print("pandas" + "="*50)
print()
display(df.set_index("A"))
display(df.drop_duplicates())
display(df.sort_values(by="B"))


4.169769557630599
0.005891064774163235
[[0.52663663 0.30913198 0.8469734 ]
 [0.00589106 0.39307139 0.85110352]
 [0.46896017 0.41829375 0.34970764]]




Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
0.526637,0.005891,0.46896
0.309132,0.393071,0.418294
0.846973,0.851104,0.349708


Unnamed: 0,A,B,C
0,0.526637,0.005891,0.46896
1,0.309132,0.393071,0.418294
2,0.846973,0.851104,0.349708


Unnamed: 0,A,B,C
0,0.526637,0.005891,0.46896
1,0.309132,0.393071,0.418294
2,0.846973,0.851104,0.349708


## 【問題3】標準化クラスをスクラッチで作成
理解をより深めるため、StandardScalerをスクラッチで作成しましょう。scikit-learnは使わず、

NumPyなどを活用して標準化の計算を記述します。具体的にはfitメソッドとtransformメソッドを作ります。

今回は雛形を用意しました。クラスの作成方法は関数に近いです。メソッドはクラスの中にさらにインデントを一段下げて記述します。

インスタンス変数を作成する際はself.mean_のようにselfを付けます。

クラスの外からscaler.mean_と書いていたscalerの部分が自分自身を表すselfになっています。



In [5]:
class ScratchStandardScaler():
    """
    標準化のためのクラス

    Attributes
    ----------
    mean_ : 次の形のndarray, shape(n_features,)
        平均
    var_ : 次の形のndarray, shape(n_features,)
        分散
    """
    def fit(self, X):
        """
        標準化のために平均と標準偏差を計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データ
        """
        self.mean_ = X.mean()
        self.var_ = X.std()
        
    def transform(self, X):
        """
        fitで求めた値を使い標準化を行う。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            特徴量

        Returns
        ----------
        X_scaled : 次の形のndarray, shape (n_samples, n_features)
            標準化された特緒量
        """
        X_scaled = (X - self.mean_) / self.var_
        
        return X_scaled

In [6]:
import numpy as np
from sklearn.datasets import load_iris
data = load_iris()
X = data.data[:10]
scratch_scaler = ScratchStandardScaler()
scratch_scaler.fit(X)
print("平均 : {}".format(scratch_scaler.mean_))
print("分散 : {}".format(scratch_scaler.var_))
X_std = scratch_scaler.transform(X)
print(X_std)

平均 : 2.46
分散 : 1.781684596105607
[[ 1.48174374  0.58371723 -0.59494256 -1.26846245]
 [ 1.36949043  0.30308395 -0.59494256 -1.26846245]
 [ 1.25723711  0.41533726 -0.65106922 -1.26846245]
 [ 1.20111046  0.3592106  -0.53881591 -1.26846245]
 [ 1.42561708  0.63984389 -0.59494256 -1.26846245]
 [ 1.65012371  0.80822386 -0.42656259 -1.15620913]
 [ 1.20111046  0.52759057 -0.59494256 -1.21233579]
 [ 1.42561708  0.52759057 -0.53881591 -1.26846245]
 [ 1.08885714  0.24695729 -0.59494256 -1.26846245]
 [ 1.36949043  0.3592106  -0.53881591 -1.3245891 ]]


特殊メソッドの確認

In [7]:
class ExampleClass():
    """
    説明用の簡単なクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))
    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2
example = ExampleClass(5)
print("value : {}".format(example.value))
example.add(3)
print("value : {}".format(example.value))

初期値5が設定されました
value : 5
value : 8


## 【問題4】 四則演算を行うクラスの作成
上記ExampleClassは足し算のメソッドを持っていますが、これに引き算、掛け算、割り算のメソッドを加えてください。

コンストラクタに入力されたvalueが文字列や配列など数値以外だった場合にはエラーを出すようにしてください。

クラス名や説明文も適切に書き換えてください。

In [8]:
class Calculator():
    """
    四則演算を行うクラス

    Parameters
    ----------
    value : float or int
        初期値

    Attributes
    ----------
    value : float or int
        計算結果
    """
    def __init__(self, value):
        self.value = value
        print("初期値{}が設定されました".format(self.value))

    def add(self, value2):
        """
        受け取った引数をself.valueに加える
        """
        self.value += value2

    def subtract(self, value3):
        """
        受け取った引数をself.valueから減算する
        """
        self.value -= value3

    def multiply(self, value4):
        """
        受け取った引数をself.valueに掛ける
        """
        self.value *= value4

    def devide(self, value5):
        """
        受け取った引数をself.valueから割る
        """
        self.value /= value5
        

In [9]:
cal = Calculator(10)
#５を足す
cal.add(5)
print("value : {}".format(cal.value))
#３を引く
cal.subtract(3)
print("value : {}".format(cal.value))
#２で掛ける
cal.multiply(2)
print("value : {}".format(cal.value))
#６で割る
cal.devide(6)
print("value : {}".format(cal.value))

初期値10が設定されました
value : 15
value : 12
value : 24
value : 4.0
