# 機械学習におけるスケーリングと正規化

### 【手法】
#### 最小ー最大スケーリング
- 特徴量を指定された範囲（通常は[0, 1]）に変換
- すべての特徴量が同じ範囲に収まるようにする
- **使用例**：k-NNまたはニューラルネットワーク
- **制限事項**：外れ値の影響を受けやすく、極端な値がスケールを歪める可能性がある

#### 標準化（Zスコアスケーリング）
- データを、平均がゼロ、標準偏差が1になるようにスケーリング
- 各特長量が標準正規分布に従うことを保証する
- **使用例**：SVM、ロジスティック回帰、PCA
- **利点**：最小ー最大スケーリングよりも外れ値を適切に処理できる

### 【適用場面】

##### スケーリングを必要とするアルゴリズム
- **距離ベースアルゴリズム**：k-NN、SVM、K-Meansクラスタリング
- **勾配ベースモデル**：線形回帰、ロジスティック回帰、ニューラルネットワーク

##### スケーリングの影響を受けにくいアルゴリズム
- **ツリーベースモデル**：決定木、ランダムフォレスト、勾配ブースティング

---
## 演習
- scikit-learn を使用して、データセットに最小-最大スケーリングと標準化を適用する
- スケーリングの前後でk近傍法アルゴリズム(kNN)をトレーニングすることにより、スケーリングがモデルのパフォーマンスに与える影響を観察する

### Load dataset

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

# Load Iris dataset
iris = load_iris()
X = pd.DataFrame(data=iris.data, columns=iris.feature_names)
y = iris.target

In [2]:
 # Display dataset information
print("\nFeatures: ", iris.feature_names)  # Display feature names
print("\nStatistics:\n", X.describe())

print("\nTarget Classes: ", iris.target_names)  # Display target values
print("\nTarget Values:\n", y)


Features:  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Statistics:
        sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  

Target Classes:  ['setosa' 'versicolor' 'virginica']

Target Values:
 

### k近傍モデルを訓練、テストデータを予測、正解率を評価

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MinMaxScaler, StandardScaler    # for scaling features

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train a k-NN classifier
knn = KNeighborsClassifier(n_neighbors=5)   # Number of neighbors can be adjusted
knn.fit(X_train, y_train)

# Predict and evaluate the model
y_pred = knn.predict(X_test)
print("Accuracy without scaling:", accuracy_score(y_test, y_pred))

Accuracy without scaling: 1.0


### 標準化スケーリングを適用

In [5]:
# Apply Standard scaling and repeat the process
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train_scaled, X_test_scaled, y_train_scaled, y_test_scaled = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

knn_scaled = KNeighborsClassifier(n_neighbors=5)
knn_scaled.fit(X_train_scaled, y_train_scaled)

y_pred_scaled = knn_scaled.predict(X_test_scaled)
print("Accuracy with standard scaling:", accuracy_score(y_test_scaled, y_pred_scaled))

Accuracy with standard scaling: 1.0


### 最小－最大スケーリングを適用

In [6]:
# Apply Min-Max scaling and repeat the process
scaler_minmax = MinMaxScaler()
X_minmax_scaled = scaler_minmax.fit_transform(X)
X_train_minmax_scaled, X_test_minmax_scaled, y_train_minmax_scaled, y_test_minmax_scaled = train_test_split(X_minmax_scaled, y, test_size=0.2, random_state=42)

knn_minmax_scaled = KNeighborsClassifier(n_neighbors=5)
knn_minmax_scaled.fit(X_train_minmax_scaled, y_train_minmax_scaled)

y_pred_minmax_scaled = knn_minmax_scaled.predict(X_test_minmax_scaled)
print("Accuracy with Min-Max scaling:", accuracy_score(y_test_minmax_scaled, y_pred_minmax_scaled))

Accuracy with Min-Max scaling: 1.0
