<a id=0></a>
# 8.Numeric Features
※　数値型特徴量の取り扱い

---
### [1. スケーリング](#1)
### [2. 非線形変換](#2)
### [3.ビニング、離散化](#3)
---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(context='talk', style='darkgrid', font='MS GOTHIC')

---
<a id=1></a>
[Topへ](#0)

---
## 1. スケーリング

* スケーリングの目的
* 代表的な4つのスケーラー
* サンプルアレイの作成
* StandardScaler
* MinMaxScaler
* MaxAbsScaler
* RobustScaler
---

スケーリングの目的

In [None]:
x = np.array([1, 1, 2])
y = np.array([1, 4, 1])
X = x * 1000

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 5), tight_layout=True)
sns.scatterplot(x=x, y=y, ax=axes[0], hue=['A', 'B', 'C'], palette='Set1')
axes[0].set_xlim(0.9, 4.1)
sns.scatterplot(x=X, y=y, ax=axes[1], hue=['A', 'B', 'C'], palette='Set1')
plt.show()

代表的な4つのスケーラー

サンプルアレイの作成

StandardScaler

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html  
+ 標準化
+ X = (x - 平均値) / 標準偏差
+ 平均0、標準偏差1の分布になるようスケーリング

MinMaxScaler

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

* 正規化
* X = (x - 最小値) / (最大値 - 最小値)
* 最小0、最大1の分布になるようスケーリング

MaxAbsScaler

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html

* X = x / 最大絶対値
* X = x / maxabs
* -1～1の分布になるようスケーリング（少なくとも-1もしくは1の値を持つ）

RobustScaler

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html  

* X = x - 中央値 / 四分位範囲
* X = x - med / IQR
* 中央値0、外れ値を除く大部分を対象にスケーリング

---
<a id=2></a>
[Topへ](#0)

---
## 2. 非線形変換

* ボストン住宅価格データセット
  - Belsley, Kuh & Welsch, 'Regression diagnostics: Identifying Influential Data and Sources of Collinearity', Wiley, 1980. 244-261.
  - Quinlan, R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.
* QuantileTransformer  
    n_quantiles=1000, output_distribution='uniform'('normal')  
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.QuantileTransformer.html  
  PowerTransformer  
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html

In [None]:
# Toy datasetsのひとつ
# https://scikit-learn.org/stable/datasets/toy_dataset.html
from sklearn.datasets import load_boston
boston = load_boston()
# data, target, filename, DESCR, feature_names

# scikit-learnのバージョンにより上記のデータセットが使用できない場合があります
# その場合は下のセル内のコメントアウトを外し実行して学習をお進めください

# 使用不可の理由には特徴量のひとつが不適切であることが挙げられています
# https://scikit-learn.org/1.1/modules/generated/sklearn.datasets.load_boston.html
# ここでは特徴量の意味には触れず、プロット用のデータとして利用するのみです
# 学習用としてはこれまで通り使用可能となっておりますのでご安心ください

In [None]:
# 上記のload_bostonが使用できない場合は以下を実行し、学習をお進めください

# data_url = "http://lib.stat.cmu.edu/datasets/boston"
# raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
# data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
# feature_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
# df = pd.DataFrame(data, columns=feature_names)


QuantileTransformer / PowerTransformer

---
<a id=3></a>
[Topへ](#0)

---
## 3. ビニング、離散化

* KBinsDiscretizer  
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html
* pd.cut()

KBinsDiscretizer  
Keyword Arguments : n_bins=5, strategy='quantile'('uniform', 'kmeans'),  encode='onehot'('onehot-dense', 'ordinal')

pd.cut()

---
 <a id=4></a>
[Topへ](#0)

---
## 以上
    
---