# Practice of scratch

<br>次回から機械学習手法のスクラッチを行っていきます。
<br>Sprint2ではその準備として、scikit-learnのtrain_test_splitのスクラッチと、分類・回帰のパイプラインの作成を行います。

### 1. The purpose of this practice
###### 1, Getting used to dealing with 'py.file'
###### 2, Preparing scratch of machine learning

### 2. The significance of Scratch

<br>ここでのスクラッチとは、NumPyなどの基本的なライブラリを組み合わせることで、
<br>scikit-learnのような応用的なライブラリと同じ機能のクラス・関数を自作することを指します。
<br>
<br>スクラッチをすることでscikit-learnを動かすだけでは掴みづらい、アルゴリズムの深い理解を目指します。
<br>コーディングのスキル向上も兼ねますが、それは主な目的ではありません。
<br>
<br>以下のような効果を狙っています

###### 1, Make it easier to understand new theories and mathematical expression
###### 2, Avoid ambiguity in using library
###### 3. Make easier to read implementations

### 3. Execute py.files

これまでの課題ではJupyter Notebookを用いてコーディングを行ってきました。
<br>しかし、大きめのプログラムを書いていくにあたってはpyファイルを作成して実行する必要があります。
<br>
<br>今回からのスクラッチ編の課題は、最終的にpyファイルをJupyter Notebook上から実行する形で作成していただきます。
<br>
<br>任意のテキストエディタを用いて、ipynbと同じ階層に hello.py を作成してください。
<br>セルに%run hello.pyとすることでJupyter Notebook上から実行が可能です。

In [1]:
%run hello.py

ERROR:root:File `'hello.py'` not found.


<br>pyファイルに対しては実行する際に引数を与えることが可能です。
<br>今後はモデルのハイパーパラメータやデータセットのパスを引数として渡せるようにしていきます。
<br>標準モジュールargparseを利用したサンプルコードを用意しました。ipynbと同じ階層に hello_argparse.py を作成してください。

# import library and module
import argparse
import numpy as np

# setting of arguments in command line
parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter, description='argparse sample')
parser.add_argument('--num_iters', default=10, type=int,
                    help='number of iterations')
parser.add_argument('--alpha', default=0.1, type=float,
                    help='initial alpha')
parser.add_argument('--display', action='store_true',
                    help='display of calculation process')
parser.add_argument('--text', default='Hello, World!', type=str,
                    help='text sample')

def main(args):
    print(args.text)
    x = args.alpha
    for i in range(args.num_iters):
        x *= 2
        if args.display:
            print(x)
    print("RESULT : {}".format(x))

if __name__ == '__main__':
    # running first when pyfile start

    # read a argument of command line
    args = parser.parse_args()
    main(args)

In [2]:
%run hello_argparse.py

ERROR:root:File `'hello_argparse.py'` not found.


<br>引数alphaに引数num_iters回2倍した結果を出力するプログラムです。
<br>計算過程を表示するかどうかは引数displayにより指定できます。また、引数textの文章も出力します。
<br>引数4種類をまとめると以下のようになります。
<br>
<br>num_iters : ループの回数。整数値。デフォルト10。
<br>alpha : 計算のための初期値。実数値。デフォルト0.1。
<br>display : 計算過程を表示するかどうか。デフォルトではFalse、引数に指定するとTrueになる。
<br>text : 表示する文章。文字列。デフォルト「Hello, World!」。
<br>
<br>何も指定せずに実行すると、デフォルトで指定した値が代入されます。
<br>%run hello_argparse.py
<br>
<br>以下のように引数を与えることが可能です。
<br>%run hello_argparse.py --display --alpha 0.3 --text "Hello, argparse!" --num_iters 5

In [3]:
%run hello_argparse.py --display --alpha 0.3 --text "Hello, argparse!" --num_iters 5

ERROR:root:File `'hello_argparse.py'` not found.


### 4. Create a directory in Github

<div>スクラッチのコードを管理するため、「diveintocode-term1」配下に以下のような構造で「ml-scratch」を作成してください。
<div>この構造は一例なので、随時自分なりに追加、変更していってください。

<br>utils : 手法に関わらず共通して使うコードを格納
<br>model : 各種モデルのコードを格納
<br>
<br>この後作成するtrain_test_splitなどの関数は複数のSprintで使用するため、utilsの中に置いておき、それをインポートして使えるようにしていきます。

### TASK1. Scratch of train_test_split

<div>まずはスクラッチの練習として、scikit-learnのtrain_test_splitを自作してみましょう。
<div>Jupyter Notebookでコーディングを進め、完成後はpyファイルとします。utilsディレクトリの中にsplit.pyを作ってください。
<div>sklearn.model_selection.train_test_split — scikit-learn 0.20.0 documentation

In [4]:
# split data
def train_test_split(X, y, train_size=0.8,):
    """
    split the train data and test data

    Parameters
    ----------
    X : ndarray, shape (n_samples, n_features)
      learning data
    y : ndarray, shape (n_samples, )
      correct value
    train_size : float (0<train_size<1)
      % of train data in whole data

    Returns
    ----------
    X_train : ndarray, shape (n_samples, n_features)
      learning data
    X_test : ndarray, shape (n_samples, n_features)
      test data
    y_train : ndarray, shape (n_samples, )
      correct vale of train data
    y_test : ndarray, shape (n_samples, )
      correct vale of test data
    """
    train_len = int(len(X)*train_size)
    X_train, X_test = X [:train_len, train_len:]
    y_train, y_test = y[:train_len, train_len:]

    return X_train, X_test, y_train, y_test

<br>テストの重要性
<br>scikit-learnのtrain_test_splitと同じ動作をしているか必ずテストをするようにしましょう。ライブラリが存在するものをスクラッチする学習方法は動作の正しさを確認しやすいという利点があります。
<br>
<br>インポートの方法
<br>ml-scratchディレクトリの下にあるutilsディレクトリの中のsplit.pyの中のtrain_test_splitをimportする場合、次のように書きます。

In [5]:
import numpy as np
import random 

X = np.random.randint(100, size=100)
X.shape = (10,10)

y = np.random.randint(100, size=10)

In [6]:
from utils.split import train_test_split
train_test_split(X, y, 0.3)

(array([[35, 94, 82, 20, 14, 91, 81, 22, 64, 43],
        [ 1, 92, 38, 43, 76, 73, 93, 51, 46, 91],
        [14, 74, 67, 17, 41, 84, 64, 53, 85, 74]]),
 array([[ 5,  2, 76, 37, 76, 17, 41, 40, 64, 24],
        [67, 96, 42, 97, 25, 74, 95, 21, 40, 45],
        [ 0, 28, 49, 80, 74, 87, 69, 53, 50, 99],
        [90, 25, 54, 21, 74, 62, 28, 53, 85, 47],
        [21, 14, 45, 36, 65, 10, 64, 66, 35,  9],
        [35, 39,  1, 12, 87, 42, 26, 45, 67, 95],
        [17, 48, 88, 35, 18, 34, 41, 26, 23,  7]]),
 array([99, 18, 74]),
 array([99, 83, 67, 63, 38, 58, 55]))

In [7]:
import utils.split
utils.split.train_test_split(X, y, 0.3)

(array([[35, 94, 82, 20, 14, 91, 81, 22, 64, 43],
        [ 1, 92, 38, 43, 76, 73, 93, 51, 46, 91],
        [14, 74, 67, 17, 41, 84, 64, 53, 85, 74]]),
 array([[ 5,  2, 76, 37, 76, 17, 41, 40, 64, 24],
        [67, 96, 42, 97, 25, 74, 95, 21, 40, 45],
        [ 0, 28, 49, 80, 74, 87, 69, 53, 50, 99],
        [90, 25, 54, 21, 74, 62, 28, 53, 85, 47],
        [21, 14, 45, 36, 65, 10, 64, 66, 35,  9],
        [35, 39,  1, 12, 87, 42, 26, 45, 67, 95],
        [17, 48, 88, 35, 18, 34, 41, 26, 23,  7]]),
 array([99, 18, 74]),
 array([99, 83, 67, 63, 38, 58, 55]))

<br>ただし、importできるのは実行しているファイルよりも下の階層にある場合です。
<br>そのような関係にない場所から呼び出したい場合は、sys.path.appendを使い、モジュールを探しに行く場所を追加する必要があります。

In [8]:
# import sys
# sys.path.append(ml-scratchディレクトリへのpath)

### 5. Create a pipline

<br>次回以降、scikit-learnと同じ動作をするクラスを作成していきますが、
<br>まずはscikit-learnを使ったコードを用意しておきます。
<br>
<br>ここまでの復習を兼ねていますので、学んだことを思い出しながら使いやすいコードを完成させてください。
<br>argparseを使って、外から引数を入れられるようにもしておきましょう。
<br>
<br>このコードを元に、Sprintが進むごとに呼び出すクラスを自作のものに変えていきます。

### TASK2. Create piplines of Classifier

<br>分類は3種類の手法を扱います。pyファイルで実行できる分類のパイプラインを作成してください。
<br>
<br>・ロジスティック回帰
<br>・SVM
<br>・決定木
<br>データセットは3種類用意します。3つのデータセットが引数により切り替えられるようにしてください。
<br>1つ目は事前学習期間同様にirisデータセットです。
<br>
<br>sklearn.datasets.load_iris — scikit-learn 0.20.2 documentation
<br>
<br>2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。
<br>virgicolorとvirginica
<br>また、残り2つは可視化が可能な特徴量が2つのデータセットを人工的に用意します。以下のコードで説明変数X,目的変数yが作成可能です。
<br>「シンプルデータセット1」「シンプルデータセット2」とします。

In [9]:
#  iris
import pandas as pd
from sklearn.datasets import load_iris
data = load_iris()

df_X = pd.DataFrame(data.data)
df_y = pd.DataFrame(data.target)

df_X = df_X.rename(columns={0:'sepal_length', 1:'sepal_width', 2:'petal_length', 3:'petal_width'})
df_y = df_y.rename(columns={0:'target'})

df = pd.concat([df_X, df_y], axis=1)

columns_list = []

df_process = df[df['target'] > 0]

iris_X = df_process.drop('target', axis=1) # array
iris_y = pd.DataFrame(df_process['target']-1) # array

iris_X.to_csv("classifier_X.csv", encoding="shift_jis")
iris_y.to_csv("classifier_y.csv", encoding="shift_jis")

print(len(iris_X))
print(len(iris_y))

100
100


In [10]:
# simple dataset1
import numpy as np

np.random.seed(seed=0)
n_samples = 500
f0= [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]

f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))

X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)

random_index = np.random.permutation(np.arange(n_samples))
sd1_X = X[random_index]
sd1_y = y[random_index]

sd1_X = pd.DataFrame(sd1_X)
sd1_y = pd.DataFrame(sd1_y)

sd1_X.to_csv("classifier_X.csv", encoding="shift_jis")
sd1_y.to_csv("classifier_y.csv", encoding="shift_jis")

In [11]:
#  simple dataset2
sd2_X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
sd2_y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

sd2_X = pd.DataFrame(sd2_X)
sd2_y = pd.DataFrame(sd2_y)

sd2_X.to_csv("classifier_X.csv", encoding="shift_jis")
sd2_y.to_csv("classifier_y.csv", encoding="shift_jis")

In [12]:
# import library and module
import argparse

import numpy as np
import pandas as pd

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

# from sklearn.neighbors import KNeighborsClassifier
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.datasets import make_classification

from sklearn.model_selection import train_test_split

# initialize argument value
parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter, description='argparse sample')
parser.add_argument('--model', default=LogisticRegression(),
                    help='method')
parser.add_argument('--normalization', default=True, type=bool,
                    help='normalization')


def main(args):
    """
    Parameter
    ---------------
    model : the model of method
    target_value :train data
    feature_value : objective valuable
    normalization :name, True= standardize　False= no standardize

    """
    X = pd.read_csv('classifier_X.csv', index_col=0)
    y = pd.read_csv('classifier_y.csv', index_col=0)

    # split train data and test data
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # standalized
    if args.normalization == True:
        scaler = StandardScaler()
        scaler.fit(X_train)
        X_train = scaler.transform(X_train)
        scaler.fit(X_test)
        X_test = scaler.transform(X_test)

        X_train = pd.DataFrame(X_train)
        X_test = pd.DataFrame(X_test)

    # pick
    y_train, y_test = y_train.iloc[:, 0], y_test.iloc[:, 0]

    # learnig and predicting
    if args.model == 'LogisticRegression()':
        clf = LogisticRegression()

    elif args.model == 'DecisionTreeClassifier()':
        clf = DecisionTreeClassifier()

    elif args.model == 'SVC()':
        clf = SVC(gamma='auto')
        clf.probability = True

    clf.fit(X_train, y_train)
    result = clf.predict_proba(X_test)

    return print(result)


if __name__ == '__main__':
    # running first when pyfile start

    # read a argument of command line
    args = parser.parse_args()
    main(args)

usage: ipykernel_launcher.py [-h] [--model MODEL]
                             [--normalization NORMALIZATION]
ipykernel_launcher.py: error: unrecognized arguments: -f /Users/KawakamiYohei/Library/Jupyter/runtime/kernel-84fa05c0-2ec1-4467-b62b-43ad4b8f18a9.json


SystemExit: 2

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [28]:
%run clf.py  --model DecisionTreeClassifier() --normalization False

[0 0 1 0 0 1 1 1 0 0 1 0]


### TASK3. Create a  pipline of Linear regression 

<br>回帰は1種類を扱います。pyファイルで実行できる回帰のパイプラインを作成してください。
<br>
<br>・線形回帰
<br>データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。
<br>House Prices: Advanced Regression Techniques
<br>train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。

In [23]:
# import file
df_train = pd.read_csv("train.csv")

house_X = df_train.loc[:, ['GrLivArea', 'YearBuilt']]
house_y = df_train['SalePrice']
y = y.rename(columns={0:'SalesPrice'})

house_X.to_csv("linear_X.csv" )
house_y.to_csv("linear_y.csv")

In [26]:
# import library and module
import argparse

# import library module
import numpy as np
import pandas as pd

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# initialize argument value
parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter, description='argparse sample')
parser.add_argument('--model', default=LinearRegression(), type=str, 
                    help='model')
parser.add_argument('--normalization', default=True, type=bool,
                    help='normalization')

def main(args):
    """
    Parameter
    ---------------
    model : the model of method
    target_value :train data
    feature_value : objective valuable
    normalization :name, True= standardize　False= no standardize
    
    """
    X = pd.read_csv('linear_X.csv')
    y = pd.read_csv('linear_y.csv')
    
    # split train data and test data
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # standalized
    if args.normalization == True:
        scaler = StandardScaler()
        scaler.fit(X_train)
        X_train = scaler.transform(X_train)
        scaler.fit(X_test)
        X_test = scaler.transform(X_test)
        
    # pick
    y_train, y_test = y_train.iloc[:, 0], y_test.iloc[:, 0]
    
    # learnig and predicting
    if args.model == 'LinearRegression()':
        clf = LinearRegression()
    clf.fit(X_train,  y_train)
    result = clf.predict_proba(X_test)
    
    return result

if __name__ == '__main__':
    # running first when pyfile start

    # read a argument of command line
    args = parser.parse_args()
    main(args)

usage: ipykernel_launcher.py [-h] [--model MODEL]
                             [--normalization NORMALIZATION]
ipykernel_launcher.py: error: unrecognized arguments: -f /Users/KawakamiYohei/Library/Jupyter/runtime/kernel-84fa05c0-2ec1-4467-b62b-43ad4b8f18a9.json


SystemExit: 2

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [27]:
%run lnr.py  --model LinearRegression() --normalization False

[235089.19016343 125750.01902351 252902.15204646 516107.38041869
 220684.88599981 122302.48377137 182738.89028805 293793.42008939
 132768.55115969 147133.97779058 150993.93533302 109864.14556224
 176050.29301263 246361.18753339 220504.68057105 161092.76283009
 203291.69960822 127058.73609353  75567.42596738  74760.97181833
 188345.73082349 200359.5611771  204779.57377218 216337.37193868
 226311.16530161 189609.78966188 170636.791806   268123.94758954
  90246.50855453 137350.90291941 298733.54701219  81032.41443937
 230532.58203639 129746.57209789 221239.16035356 313463.06852987
 148789.97181809  67111.98276519 191569.97491746 153017.69341919
  99295.1036432  226189.27617194 120188.36088711 126090.99111467
 113937.40536726 201241.67372196 110122.63022386 196260.03357199
 118151.4689009  124030.45216542 169315.98917075 185788.18548476
 151123.70183124 190422.02450984 143078.5842497  143383.29964519
 221774.52010835 143156.86348256 141294.3962262   35828.84069617
 105051.67361063 191297.3

  return self.partial_fit(X, y)
  X_train = scaler.transform(X_train)
  return self.partial_fit(X, y)
  X_test = scaler.transform(X_test)
