# 4章　数値データの取り扱い
## レシピ4.1　特徴量のスケール変換 

In [None]:
# ライブラリをロード
import numpy as np
from sklearn import preprocessing

# 特徴量を作成
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])

# スケール変換器を作成
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# 特徴量をスケール変換
scaled_feature = minmax_scale.fit_transform(feature)

# 特徴量を表示
scaled_feature

## レシピ4.2　特徴量の標準化

In [None]:
# ライブラリをロード
import numpy as np
from sklearn import preprocessing

# 特徴量を作成
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

# スケール変換器を作成
scaler = preprocessing.StandardScaler()

# 特徴量を変換
standardized = scaler.fit_transform(x)

# 特徴量を表示
standardized

In [None]:
# 平均値と標準偏差を表示
print("平均値:", round(standardized.mean()))
print("標準偏差:", standardized.std())

In [None]:
# スケール変換器を作成
robust_scaler = preprocessing.RobustScaler()

# 特徴量を変換
robust_scaler.fit_transform(x)

 
## レシピ4.3　観測値の正規化


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.preprocessing import Normalizer

# 特徴量行列を作成
features = np.array([[0.5, 0.5],
                     [1.1, 3.4],
                     [1.5, 20.2],
                     [1.63, 34.4],
                     [10.9, 3.3]])

# 正規化器を作成
normalizer = Normalizer(norm="l2")

# 特徴量行列を変換
normalizer.transform(features)

In [None]:
# 特徴量行列を変換
features_l2_norm = Normalizer(norm="l2").transform(features)

# 特徴量行列を表示
features_l2_norm

In [None]:
# 特徴量行列を変換
features_l1_norm = Normalizer(norm="l1").transform(features)

# 特徴量行列を表示
features_l1_norm

In [None]:
# 総計を表示
print("最初の観測値の総計:",
features_l1_norm[0, 0] + features_l1_norm[0, 1])

## レシピ4.4　多項式特徴量と交互作用特徴量 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

# 特徴量行列を作成
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# PolynomialFeaturesオブジェクトを作成
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

# 多項式特徴量を作成
polynomial_interaction.fit_transform(features)

In [None]:
interaction = PolynomialFeatures(degree=2,
            interaction_only=True, include_bias=False)
interaction.fit_transform(features)

## レシピ4.5　特徴量の変換 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.preprocessing import FunctionTransformer

# 特徴量行列を作成
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# 簡単な関数を定義
def add_ten(x: int) -> int:
    return x + 10

# 変換器を作成
ten_transformer = FunctionTransformer(add_ten)

# 特徴量行列を変換
ten_transformer.transform(features)

In [None]:
# ライブラリをロード
import pandas as pd

# DataFrameを作成
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# 関数を適用
df.apply(add_ten)

## レシピ4.6　外れ値の検出 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

# 簡単な人工データを生成
features, _ = make_blobs(n_samples = 10,
                         n_features = 2,
                         centers = 1,
                         random_state = 1)

# 最初の特徴量の値を極端な値に置換
features[0,0] = 10000
features[0,1] = 10000


In [None]:
# 検出器を作成
outlier_detector = EllipticEnvelope(contamination=.1)

# 検出器を訓練
outlier_detector.fit(features)

# 外れ値を予測
outlier_detector.predict(features)


In [None]:
# 特徴量を1つ作成
feature = features[:,0]

# 外れ値のインデックスを返す関数を作る
def indicies_of_outliers(x: int) -> np.array(int):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

# 関数を実行
indicies_of_outliers(feature)

## レシピ4.7　外れ値の取り扱い 


In [None]:
# ライブラリをロード
import pandas as pd

# DataFrameを作成
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

# 観測値をフィルタリング
houses[houses['Bathrooms'] < 20]

In [None]:
# ライブラリをロード
import numpy as np

# 真偽条件に基づいて特徴量を作る
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

# データを表示
houses

In [None]:
# 特徴量を対数にする
houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]

# データを表示
houses

## レシピ4.8　特徴量の離散化 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.preprocessing import Binarizer

# 特徴量を作成
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]])

# 2値化器を作成
binarizer = Binarizer(threshold=18)

# 特徴量を変換
binarizer.fit_transform(age)

In [None]:
# 特徴量を複数のビンに分割
np.digitize(age, bins=[20,30,64])

In [None]:
# 特徴量を複数のビンに分割
np.digitize(age, bins=[20,30,64], right=True)

In [None]:
# 特徴量を複数のビンに分割
np.digitize(age, bins=[18])

## レシピ4.9　クラスタリングによる観測値のグループ分け 


In [None]:
# ライブラリをロード
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 人工的な特徴量行列を作成
features, _ = make_blobs(n_samples = 50,
n_features = 2,
centers = 3,
random_state = 1)

# DataFrameを作成
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# k-meansクラスタリング器を作成
clusterer = KMeans(3, random_state=0)

# クラスタリング器を訓練
clusterer.fit(features)

# クラスタリングを実行
dataframe["group"] = clusterer.predict(features)

# 観測値の最初の数個を表示
dataframe.head(5)

## レシピ4.10　欠損値がある観測値を取り除く


In [None]:
# ライブラリをロード
import numpy as np

# 特徴量行列を作成
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])

# 欠損値のない（~で条件を反転している）観測値だけを残す
features[~np.isnan(features).any(axis=1)]

In [None]:
# ライブラリをロード
import pandas as pd

# データをロード
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# 欠損値のある観測値を削除
dataframe.dropna()

## レシピ4.11　欠損値の補完 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 人工的な特徴量行列を作成
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)

# 特徴量を標準化
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 最初の特徴量の最初の値を欠損値に置換
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# 特徴量行列中の欠損値を補完
knn_imputer = KNNImputer(n_neighbors=5)
features_knn_imputed = knn_imputer.fit_transform(standardized_features)

# 真の値と補完された値を比較
print("真の値:", true_value)
print("補完された値:", features_knn_imputed[0,0])

In [None]:
# ライブラリをロード
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 特徴量行列をシミュレーションで作成
features, _ = make_blobs(n_samples = 1000,
n_features = 2,
random_state = 1)

# 特徴量の標準化
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 特徴量の最初の値を欠損値に置き換え
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# 手法を"mean"に指定して補完器を作成
mean_imputer = SimpleImputer(strategy="mean")

# 欠損値を補完
features_mean_imputed = mean_imputer.fit_transform(features)

# 真の値と補完値を比較
print("真の値:", true_value)
print("補完された値:", features_mean_imputed[0,0])