# 教師あり学習における前処理の効果
## 3つパターンを比較する
1. スケーリングしない場合のスコア
2. MinMaxScalerを利用した場合のスコア
3. StandardScalerを利用した場合のスコア

## 共通の条件
- データ: breast cancer
- アルゴリズム: SupportVectorMachine(SVM)

In [1]:
import warnings

warnings.filterwarnings("ignore")

In [2]:
# データの準備
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

In [3]:
# データセットの分割
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, random_state=0)

## 1. スケーリングしない場合のスコア

In [4]:
# 学習
from sklearn.svm import SVC

svm = SVC()

svm.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [5]:
# テストスコアを表示
# SVMはスケーリングされていないデータにかなり弱い
print(f"Test accuracy: {svm.score(X_test, y_test):.2f}")

Test accuracy: 0.63


## 2. MinMaxScalerを利用した場合のスコア

In [6]:
#  特徴量のスケーリングの威力を試す
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

# 学習データに対してMinとMaxを計算
scaler.fit(X_train)

MinMaxScaler(copy=True, feature_range=(0, 1))

In [7]:
# データ変換を行う
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [8]:
# スケーリング後の学習データで学習する
svm.fit(X_train_scaled, y_train)

# スケーリング後のテストデータでスコアを確認する
print(f"Scaled Test accuracy: {svm.score(X_test_scaled, y_test):.2f}")

Scaled Test accuracy: 0.95


## 3. StandardScalerを利用した場合のスコア


In [9]:
# 平均0 分散1 に変換
from sklearn.preprocessing import StandardScaler

standard_scaler = StandardScaler()

standard_scaler.fit(X_train)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [10]:
# データ変換を行う
X_train_standard_scaled = standard_scaler.transform(X_train)
X_test_standard_scaled = standard_scaler.transform(X_test)

In [11]:
# 学習する
svm.fit(X_train_standard_scaled, y_train)

# スコアを確認する
print(f"Scaled Test accuracy: {svm.score(X_test_standard_scaled, y_test):.2f}")

Scaled Test accuracy: 0.97
