# このSprintについて

### Sprintの目的
- 機械学習スクラッチの準備をする

### どのように学ぶか
- 今後の機械学習スクラッチ課題で作成するモデルを、scikit-learnを用いて一度動かしておきます。これまでの復習を兼ねたスクラッチ課題の準備です。

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid')
import warnings
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split
import math
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import mean_squared_error

# 【問題1】train_test_splitのスクラッチ
スクラッチの練習として、scikit-learnのtrain_test_splitを自作してみます。以下の雛形をベースとして関数を完成させてください。  
なお、作成した関数がscikit-learnのtrain_test_splitと同じ動作をしているか必ず確認をするようにしましょう。  

In [2]:
def scratch_train_test_split(X, y, train_size=0.8, random_state=None, shuffle=True, stratify=None):
    """
    検証データを分割する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, )
      正解値
    train_size : float (0<train_size<1)
      何割をtrainとするか指定

    Returns
    ----------
    X_train : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    X_test : 次の形のndarray, shape (n_samples, n_features)
      検証データ
    y_train : 次の形のndarray, shape (n_samples, )
      訓練データの正解値
    y_test : 次の形のndarray, shape (n_samples, )
      検証データの正解値
    """
    import numpy as np
    import math
    
    # シードを設定して乱数を出力
    np.random.seed(random_state)
    
    # X, yを結合
    data = np.concatenate((X, y.reshape(-1, 1)), axis=1)
    
    # 行数, 列数
    row, col = data.shape
    
    # trainのサンプル数
    num = math.ceil(row * train_size)
    
    #-----------------------------------------------------------
    
    # shuffleがTrueならindexをシャッフルする。
    if shuffle is True:
        np.random.shuffle(data)
    
    # 引数stratifyに均等に分割させたいデータの指定がある。
    if stratify is not None:
        
        # 結合用のarray
        train_mod = np.ones((0, col))
        test_mod = np.ones((0, col))
        
        # ユニークな要素の個数・頻度をカウント
        uniques, counts = np.unique(y, return_counts=True)
        
        for u, c in zip(uniques, counts):
            # uの要素を含む行をtrain_size分train_modに結合
            mod1 = data[data[:, -1]==u][:math.ceil(c*train_size)]
            train_mod = np.concatenate((train_mod, mod1),axis=0)
            # uの要素を含む行のtrain_size分移行をtest_modに結合
            mod2 = data[data[:, -1]==u][math.ceil(c*train_size):]
            test_mod = np.concatenate((test_mod, mod2), axis=0)
            
        X_train, X_test = train_mod[:, :-1], test_mod[:, :-1]
        y_train, y_test = train_mod[:, -1], test_mod[:, -1]
        
        # ユニークな要素が分割できない時はエラーを出力
        if len(np.unique(y_test)) < len(uniques):
            raise ValueError('yのクラス数が足りません。')

    else:
        X_train, X_test = data[:num, :-1], data[num:, :-1]
        y_train, y_test = data[:num, -1], data[num:, -1]  

    return X_train, X_test, y_train, y_test

## 分類問題
分類は3種類の手法をスクラッチします。


- ロジスティック回帰
- SVM
- 決定木

ロジスティック回帰はscikit-learnにおいてLogisticRegressionクラスとSGDClassifierクラスの2種類から使用できます。ここでは勾配降下法を用いて計算するSGDClassifierクラスを利用してください。引数でloss="log"とすることでロジスティック回帰の計算になります。


# 【問題2】 分類問題を解くコードの作成
上記3種類の手法で3種類のデータセットを学習・推定するコードを作成してください。

### ロジスティック回帰

In [3]:
# アイリスデータ
from sklearn.datasets import load_iris

# インスタンスを生成
data = load_iris()

# データをDataFrame型でXに格納する。
X = pd.DataFrame(data.data, columns=['sepal_length',
                                     'sepal_width',
                                     'petal_length',
                                     'petal_width'])
# 目的変数も同様にyに格納する。
y = pd.DataFrame(data.target, columns=['Species'])

# X,yを結合
df = pd.concat([X, y], axis=1) # axis=1 列方向に結合

# 2値分類としたいため、以下の2つの目的変数のみ利用します。特徴量は4種類全て使います。virgicolorとvirginica
df = df[df['Species']!=0]
df['Species'] -= 1 # ({0: virgicolor, 1: virginica})
df = df.reset_index(drop=True)

# 訓練データと検証データに分割
X = df.iloc[:, :-1].values
y = df[['Species']].values

X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, random_state=1, stratify=y)

In [4]:
from sklearn.linear_model import SGDClassifier

# 学習
sgdc = SGDClassifier(loss='log', random_state=0)
sgdc.fit(X_train, y_train)

# 推定
sgdc_pred = sgdc.predict(X_test)

In [5]:
# 評価
confusion_matrix(y_test, sgdc_pred)

array([[9, 1],
       [1, 9]])

### SVM

In [6]:
# シンプルデータセット1作成コード
np.random.seed(seed=0)
n_samples = 500
f0 = [-1, 2]
f1 = [2, -1]
cov = [[1.0,0.8], [0.8, 1.0]]
f0 = np.random.multivariate_normal(f0, cov, int(n_samples/2))
f1 = np.random.multivariate_normal(f1, cov, int(n_samples/2))
X = np.concatenate((f0, f1))
y = np.concatenate((np.ones((int(n_samples/2))), np.ones((int(n_samples/2))) *(-1))).astype(np.int)
random_index = np.random.permutation(np.arange(n_samples))
X = X[random_index]
y = y[random_index]

X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, random_state=1, stratify=y)

In [7]:
from sklearn.svm import SVC

# 学習
svc = SVC(random_state=0)
svc.fit(X_train, y_train)

# 推定
svc_pred = svc.predict(X_test)

In [8]:
# 評価
confusion_matrix(y_test, svc_pred)

array([[50,  0],
       [ 0, 50]])

### 決定木 

In [9]:
# シンプルデータセット2作成コード
X = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, random_state=0, stratify=y)

In [10]:
from sklearn.tree import DecisionTreeClassifier

# 学習
dt = DecisionTreeClassifier(random_state=0)
dt.fit(X_train, y_train)

# 推定
dt_pred = dt.predict(X_test)

In [11]:
# 評価
confusion_matrix(y_test, dt_pred)

array([[4, 0],
       [0, 4]])

## 回帰問題
回帰は1種類をスクラッチします。


- 線形回帰

線形回帰は勾配降下法を用いて計算するSGDRegressorクラスを利用してください。


データセットは事前学習期間同様にHouse Pricesコンペティションのものを使います。


train.csvをダウンロードし、目的変数としてSalePrice、説明変数として、GrLivAreaとYearBuiltを使います。


# 【問題3】 回帰問題を解くコードの作成
線形回帰でHouse Pricesデータセットを学習・推定するコードを作成してください。

In [12]:
# データの読み込み
train = pd.read_csv('../kaggledata/train.csv')
X = train[['GrLivArea', 'YearBuilt']].values
y = train[['SalePrice']].values
X_train, X_test, y_train, y_test = scratch_train_test_split(X, y, random_state=0)

In [13]:
from sklearn.linear_model import SGDRegressor

# 学習
sgdr = SGDRegressor(random_state=0, loss='huber')
sgdr.fit(X_train, y_train)

# 推定
sgdr_pred = sgdr.predict(X_train)

In [14]:
# 評価 R^2
sgdr.score(X_test, y_test)

0.5093111780643031

In [15]:
# sgdr_pred[:5].astype(int)

array([277046, 183364, 146077, 228136, 135285])

In [16]:
# y_test[:5]

array([205000,  96500, 130000, 250000, 133900])