# sklearn.preprocessing

用於 處理缺失值 或 data的調整等.

## 處理缺失值

1. SimpleImputer：用於填補缺失值的類別。可以使用均值、中位數、最常見值等方法進行填補。

    * strategy：指定填補缺失值的策略，可以是以下幾種之一：
        * "mean"：使用特徵的均值填補缺失值。
        * "median"：使用特徵的中位數填補缺失值。
        * "most_frequent"：使用特徵的最常見值填補缺失值。
        * "constant"：使用指定的常數值填補缺失值（需要指定fill_value參數）。
    * fill_value：當strategy為"constant"時，指定要填補的常數值。

---
2. KNNImputer：用於使用k最近鄰居算法填補缺失值。

    * n_neighbors：指定k最近鄰居算法中的k值，即填補缺失值時要考慮的鄰居數量。
    * weights：指定k最近鄰居算法中的權重方式，可以是以下幾種之一：
        * "uniform"：所有鄰居的權重相同。
        * "distance"：鄰居的權重與其距離成反比。
    * metric：指定計算鄰居距離的度量方式，例如"euclidean"、"manhattan"等。

---
3. IterativeImputer：用於使用迭代算法填補缺失值。

    * estimator：指定用於估計缺失值的機器學習模型，可以是任何支持fit和predict方法的模型。
    * max_iter：指定迭代的最大次數。
    * initial_strategy：指定初始的填補策略，可以是"mean"、"median"、"most_frequent"或者"constant"。
    * imputation_order：指定填補缺失值的順序，可以是"ascending"（從第一個特徵開始填補）或"descending"（從最後一個特徵開始填補）

### python

<font size = 5>處理缺失值</font>

<font size = 5>SimpleImputer 的例子：</font>

1. 使用 DataFrame.values

In [9]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

# 假设有一个带有缺失值的 DataFrame
data = pd.DataFrame({'A': [1, 4, 7],
                     'B': [2, np.nan, 8],
                     'C': [np.nan, 6, 9]})

# 将 DataFrame 转换为 NumPy 数组
data_array = data.values

# 建立 SimpleImputer 对象，使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')

# 对数据进行填补
imputed_data_array = imputer.fit_transform(data_array)

print(imputed_data_array)

[[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]


2. 使用 apply

In [10]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 假设有一个带有缺失值的 DataFrame
data = pd.DataFrame({'A': [1, 4, 7],
                     'B': [2, np.nan, 8],
                     'C': [np.nan, 6, 9]})

# 建立 SimpleImputer 对象，使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')

# 对 DataFrame 的每一列应用填充方法
imputed_data = data.apply(lambda col: imputer.fit_transform(col.values.reshape(-1, 1)).flatten())

print(imputed_data)

     A    B    C
0  1.0  2.0  7.5
1  4.0  5.0  6.0
2  7.0  8.0  9.0


<font size = 5>IterativeImputer 的例子：</font>

In [11]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

# 假設有一個帶有缺失值的數據
data = np.array([[1, 2, np.nan],
                 [4, np.nan, 6],
                 [7, 8, 9]])

# 建立 IterativeImputer 對象，使用線性回歸模型估計缺失值
imputer = IterativeImputer(estimator=LinearRegression())

# 對數據進行填補
imputed_data = imputer.fit_transform(data)

print(imputed_data)

[[1.         2.         3.00203009]
 [4.         4.99796991 6.        ]
 [7.         8.         9.        ]]


## data 調整

1. StandardScaler: 將特徵縮放成標準正態分佈，即平均值為0，標準差為1。

    * 參數：
    * with_mean: bool, 默認為True，是否將特徵縮放成平均值為0。
    * with_std: bool, 默認為True，是否將特徵縮放成標準差為1。

---
2. MinMaxScaler: 將特徵縮放到給定的最小值和最大值之間。

    * 參數：
    * feature_range: tuple, 默認為(0, 1)，指定特徵的最小值和最大值。

---
3. RobustScaler: 將特徵縮放成中位數和四分位距的比例，能夠處理離群值。

    * 參數：
    * with_centering: bool, 默認為True，是否將特徵縮放成中位數為0。
    * with_scaling: bool, 默認為True，是否將特徵縮放成四分位距為1。

---
4. LabelEncoder: 將目標變數（類別）轉換成數字標籤。

    * 參數：無。

---
5. OneHotEncoder: 將目標變數（類別）轉換成二進制的稀疏矩陣表示。

    * 參數：
    * drop: str, 默認為None，指定是否刪除一個特徵類別，以避免共線性。

---
6. PolynomialFeatures: 創建原特徵的高次多項式特徵。

    * 參數：
    * degree: int, 默認為2，指定多項式的次數。

---
7. KBinsDiscretizer: 將連續特徵切割成指定的區間，並將其轉換成整數類別。

    * 參數：
    * n_bins: int or list of ints, 默認為5，指定切割的區間數量或指定每個特徵的切割區間數量。

### python

<font size = 5> data 調整</font>

<font size = 5> StandardScaler </font>

StandardScaler：使用StandardScaler对数据进行标准化。

In [12]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")

# Load the Boston dataset
data = load_boston().data

# StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler:")
print(scaled_data)

StandardScaler:
[[-0.41978194  0.28482986 -1.2879095  ... -1.45900038  0.44105193
  -1.0755623 ]
 [-0.41733926 -0.48772236 -0.59338101 ... -0.30309415  0.44105193
  -0.49243937]
 [-0.41734159 -0.48772236 -0.59338101 ... -0.30309415  0.39642699
  -1.2087274 ]
 ...
 [-0.41344658 -0.48772236  0.11573841 ...  1.17646583  0.44105193
  -0.98304761]
 [-0.40776407 -0.48772236  0.11573841 ...  1.17646583  0.4032249
  -0.86530163]
 [-0.41500016 -0.48772236  0.11573841 ...  1.17646583  0.44105193
  -0.66905833]]


<font size = 5> RobustScaler </font>

RobustScaler：使用RobustScaler对数据进行缩放，可以处理含有异常值的数据。

In [13]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# RobustScaler
robust_scaler = RobustScaler()
robust_scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler:")
print(robust_scaled_data)


RobustScaler:
[[-0.06959315  1.44       -0.57164988 ... -1.33928571  0.26190191
  -0.63768116]
 [-0.06375455  0.         -0.20294345 ... -0.44642857  0.26190191
  -0.22188906]
 [-0.06376011  0.         -0.20294345 ... -0.44642857  0.06667466
  -0.73263368]
 ...
 [-0.05445006  0.          0.17350891 ...  0.69642857  0.26190191
  -0.57171414]
 [-0.04086745  0.          0.17350891 ...  0.69642857  0.09641444
  -0.48775612]
 [-0.05816351  0.          0.17350891 ...  0.69642857  0.26190191
  -0.34782609]]


<font size = 5> LabelEncoder </font>

LabelEncoder：使用LabelEncoder对一个具有三个以上不同类别的分类变量进行编码。

In [14]:
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer

# LabelEncoder
# Assuming 'data' contains a categorical variable with at least three unique categories
le = LabelEncoder()
categorical_variable = ["category1", "category2", "category3"]
encoded_labels = le.fit_transform(categorical_variable)
print("LabelEncoder:")
print(encoded_labels)

LabelEncoder:
[0 1 2]


<font size = 5> PolynomialFeatures </font>

PolynomialFeatures：使用PolynomialFeatures将数据转换为多项式特征。在这个例子中，我们假设原始数据有两个特征(a, b)，转换后会添加额外的特征(a^2, b^2, ab)。

In [15]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=False)
transformed_data = poly.fit_transform(data)
print("PolynomialFeatures:")
print(transformed_data)

PolynomialFeatures:
[[6.32000000e-03 1.80000000e+01 2.31000000e+00 ... 1.57529610e+05
  1.97656200e+03 2.48004000e+01]
 [2.73100000e-02 0.00000000e+00 7.07000000e+00 ... 1.57529610e+05
  3.62766600e+03 8.35396000e+01]
 [2.72900000e-02 0.00000000e+00 7.07000000e+00 ... 1.54315409e+05
  1.58310490e+03 1.62409000e+01]
 ...
 [6.07600000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  2.23851600e+03 3.18096000e+01]
 [1.09590000e-01 0.00000000e+00 1.19300000e+01 ... 1.54802902e+05
  2.54955600e+03 4.19904000e+01]
 [4.74100000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  3.12757200e+03 6.20944000e+01]]


<font size = 5> KBinsDiscretizer </font>

KBinsDiscretizer：使用KBinsDiscretizer将一个具有至少四个不同值的数值变量进行离散化。在这个例子中，我们对第一个特征进行离散化，设定为四个bins，按quantile策略分箱。

In [16]:
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, PolynomialFeatures, KBinsDiscretizer
import warnings

# 忽略警告訊息
warnings.filterwarnings("ignore")
# Load the Boston dataset
data = load_boston().data

# KBinsDiscretizer
# Assuming 'data' contains a numerical variable with at least four distinct values
discretizer = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='quantile')
discretized_data = discretizer.fit_transform(data[:, 0].reshape(-1, 1))
print("KBinsDiscretizer:")
print(discretized_data[1:20])


KBinsDiscretizer:
[[0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]
 [2.]]
