## 数据归一化与标准化

In [1]:
# 数据归一化与标准化
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, Normalizer
import numpy as np

# Generate synthetic dataset
X = np.random.rand(100, 5) * 100  # Example dataset

# 归一化与标准化
scalers = {
    "StandardScaler": StandardScaler(),
    "MinMaxScaler": MinMaxScaler(),
    "RobustScaler": RobustScaler(),
    "Normalizer": Normalizer()
}

scaled_data = {name: scaler.fit_transform(X) for name, scaler in scalers.items()}

# 打印示例结果
for name, data in scaled_data.items():
    print(f"{name}:\n", data[:5], "\n")


StandardScaler:
 [[-0.81977883  0.26445864 -0.26315037  0.95333012 -0.19761598]
 [ 1.11826642  0.88186034 -1.09584202 -0.70174188  1.64020036]
 [ 0.08628259 -0.5569763   0.51466318  0.98490138  0.05725663]
 [-0.12595707 -1.17203613  1.02347643  0.54502596  1.43883752]
 [ 0.51274303  0.39323329  0.40485894  0.39166915 -1.28173244]] 

MinMaxScaler:
 [[0.24310319 0.55735027 0.42174442 0.78325507 0.44150447]
 [0.79554777 0.74152102 0.18369783 0.28595427 0.95079381]
 [0.50137823 0.31231646 0.64410269 0.79274131 0.51213389]
 [0.44087879 0.12884428 0.78956021 0.66057159 0.89499283]
 [0.62294183 0.59576371 0.61271228 0.61449235 0.14107785]] 

RobustScaler:
 [[-0.44324973  0.09548656 -0.17230433  0.59134579 -0.06339512]
 [ 0.72468106  0.43268204 -0.67178141 -0.34148766  1.10877673]
 [ 0.10277314 -0.35314218  0.29425499  0.60914002  0.09916437]
 [-0.02512956 -0.68905864  0.59945867  0.36121696  0.98034614]
 [ 0.35977244  0.16581716  0.22839063  0.27478183 -0.75485204]] 

Normalizer:
 [[0.2059081

## 多项式特征拓展

In [2]:
# 多项式特征扩展
from sklearn.preprocessing import PolynomialFeatures

# 使用 PolynomialFeatures 生成二次特征
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)

print("Polynomial Features:\n", X_poly[:5])


Polynomial Features:
 [[  24.1156465    56.23864104   42.19469928   78.44445351   45.1492575
   581.56440616 1356.23118706 1017.55245208 1891.7387108  1088.80353372
  3162.78474624 2372.97254676 4411.60946266 2539.13288602 1780.39264745
  3309.94012614 1905.05934312 6153.53228644 3541.7088312  2038.45545308]
 [  77.71678459   74.38319895   18.49930724   30.08465073   94.8871915
  6039.89860638 5780.82304997 1437.70667553 2338.08232019 7374.32742201
  5532.86028672 1376.03765073 2237.79256079 7058.01284381  342.22436825
   556.54519699 1755.34730847  905.08620959 2854.6480152  9003.57911133]
 [  49.17487722   32.09783665   64.32845928   79.36693899   52.04702892
  2418.16854913 1578.40717598 3163.34408635 3902.85948002 2559.40625679
  1030.2711174  2064.80437758 2547.50704301 1670.59703237 4138.15067285
  5105.552903   3348.10518064 6299.1110054  4130.81336953 2708.8932199 ]
 [  43.3048972    14.02210291   78.80744374   66.51415166   89.43758737
  1875.31412189  607.22572516 3412.748250

## 数据二值化

In [3]:
# 数据二值化
from sklearn.preprocessing import Binarizer

# 使用 Binarizer 将数据转换为二值
binarizer = Binarizer(threshold=50)
X_binarized = binarizer.fit_transform(X)

print("Binarized Data:\n", X_binarized[:5])


Binarized Data:
 [[0. 1. 0. 1. 0.]
 [1. 1. 0. 0. 1.]
 [0. 0. 1. 1. 1.]
 [0. 0. 1. 1. 1.]
 [1. 1. 1. 1. 0.]]


## 缺失值处理

In [4]:
# 缺失值处理
from sklearn.impute import SimpleImputer

# 模拟缺失值
X_with_nan = X.copy()
X_with_nan[::10, 0] = np.nan  # Add NaN values

# 使用 SimpleImputer 填充缺失值
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X_with_nan)

print("Imputed Data:\n", X_imputed[:5])


Imputed Data:
 [[47.14740744 56.23864104 42.19469928 78.44445351 45.1492575 ]
 [77.71678459 74.38319895 18.49930724 30.08465073 94.8871915 ]
 [49.17487722 32.09783665 64.32845928 79.36693899 52.04702892]
 [43.3048972  14.02210291 78.80744374 66.51415166 89.43758737]
 [60.96963021 60.023145   61.20382786 62.03319541 15.80915865]]


## 特征选择

In [5]:
# 特征选择
from sklearn.feature_selection import SelectKBest, f_classif, RFE, SelectFromModel, VarianceThreshold
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# Generate synthetic classification dataset
X, y = make_classification(n_samples=500, n_features=10, n_informative=5, n_redundant=2, random_state=42)

# 1. SelectKBest
select_k_best = SelectKBest(score_func=f_classif, k=5)
X_k_best = select_k_best.fit_transform(X, y)

# 2. RFE
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=5)
X_rfe = rfe.fit_transform(X, y)

# 3. SelectFromModel
sfm = SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=5)
X_sfm = sfm.fit_transform(X, y)

# 4. Variance Threshold
variance_thresh = VarianceThreshold(threshold=0.1)
X_variance = variance_thresh.fit_transform(X)

print("Selected Features (SelectKBest):\n", X_k_best[:5])
print("Selected Features (RFE):\n", X_rfe[:5])


Selected Features (SelectKBest):
 [[ 2.36539774 -2.40507021  0.63545372  0.25548353 -1.61977676]
 [ 1.46635883  1.43183788  1.66274087  2.76812878 -0.07690289]
 [ 0.81812098 -0.40840876  1.70915765  1.03047812  2.56668876]
 [ 0.17313038 -2.01946068  0.22270649 -0.34009373  2.68224659]
 [-1.07533851  1.23186307 -1.18685772  3.33030066  1.00210093]]
Selected Features (RFE):
 [[ 2.36539774 -2.40507021  0.63545372  0.25548353 -1.61977676]
 [ 1.46635883  1.43183788  1.66274087  2.76812878 -0.07690289]
 [ 0.81812098 -0.40840876  1.70915765  1.03047812  2.56668876]
 [ 0.17313038 -2.01946068  0.22270649 -0.34009373  2.68224659]
 [-1.07533851  1.23186307 -1.18685772  3.33030066  1.00210093]]


## 编码分类变量

In [6]:
# 编码分类变量
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder

# 示例分类数据
categorical_data = np.array([["Red", "S"], ["Blue", "M"], ["Green", "L"], ["Red", "XL"]])
ordinal_data = np.array([["Low"], ["Medium"], ["High"], ["Low"]])

# 1. OneHotEncoder
onehot_encoder = OneHotEncoder()
encoded_onehot = onehot_encoder.fit_transform(categorical_data).toarray()

# 2. LabelEncoder
label_encoder = LabelEncoder()
encoded_label = label_encoder.fit_transform(categorical_data[:, 0])

# 3. OrdinalEncoder
ordinal_encoder = OrdinalEncoder(categories=[["Low", "Medium", "High"]])
encoded_ordinal = ordinal_encoder.fit_transform(ordinal_data)

print("One-Hot Encoded:\n", encoded_onehot)
print("Label Encoded:\n", encoded_label)
print("Ordinal Encoded:\n", encoded_ordinal)


One-Hot Encoded:
 [[0. 0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 1.]]
Label Encoded:
 [2 0 1 2]
Ordinal Encoded:
 [[0.]
 [1.]
 [2.]
 [0.]]


## 处理不平衡数据

In [7]:
# 处理不平衡数据
from imblearn.over_sampling import SMOTE, ADASYN

# 模拟不平衡数据
X_imbalanced, y_imbalanced = make_classification(
    n_classes=2, class_sep=2, weights=[0.9, 0.1], n_informative=3, n_redundant=1, random_state=42
)

# 1. SMOTE
smote = SMOTE(random_state=42)
X_smote, y_smote = smote.fit_resample(X_imbalanced, y_imbalanced)

# 2. ADASYN
adasyn = ADASYN(random_state=42)
X_adasyn, y_adasyn = adasyn.fit_resample(X_imbalanced, y_imbalanced)

print("SMOTE Resampled Class Distribution:\n", np.bincount(y_smote))
print("ADASYN Resampled Class Distribution:\n", np.bincount(y_adasyn))


SMOTE Resampled Class Distribution:
 [89 89]
ADASYN Resampled Class Distribution:
 [89 90]


以下是对每个代码块中工具的原理讲解：

---

### **1. 数据归一化与标准化**

#### 工具原理：
1. **StandardScaler**:
   - 将数据转换为标准正态分布，均值为 0，标准差为 1。
   - 公式：\( z = \frac{x - \mu}{\sigma} \)，其中 \( \mu \) 是均值，\( \sigma \) 是标准差。
   - **适用场景**: 数据分布有较大差异时，尤其是线性模型和 SVM。

2. **MinMaxScaler**:
   - 将数据缩放到指定范围（默认 [0,1]）。
   - 公式：\( z = \frac{x - x_{min}}{x_{max} - x_{min}} \)。
   - **适用场景**: 数据范围固定，适用于距离度量敏感的模型（如 KNN）。

3. **RobustScaler**:
   - 基于中位数和四分位数缩放，减少异常值的影响。
   - **适用场景**: 数据中存在异常值时。

4. **Normalizer**:
   - 将每个样本（行）归一化为单位向量。
   - **适用场景**: 数据稀疏或分布不均时，尤其是文本和推荐系统。

---

### **2. 多项式特征扩展**

#### 工具原理：
- **PolynomialFeatures**:
  - 为数据生成多项式组合特征。
  - 公式：假设有 2 个特征 \( x_1, x_2 \)，二次特征扩展为 \( [x_1, x_2, x_1^2, x_2^2, x_1 \cdot x_2] \)。
  - **适用场景**: 通过非线性特征扩展提高模型性能，适用于线性模型和树模型。

---

### **3. 数据二值化**

#### 工具原理：
- **Binarizer**:
  - 将数据按阈值转化为二进制值（0 或 1）。
  - **适用场景**: 将连续特征离散化，适用于逻辑回归等。

---

### **4. 缺失值处理**

#### 工具原理：
- **SimpleImputer**:
  - 使用均值、中位数或最频繁值填充缺失值。
  - 公式：\( x_{missing} = \text{填充值} \)。
  - **适用场景**: 数据存在缺失值时，尤其是数值型数据。

---

### **5. 特征选择**

#### 工具原理：
1. **SelectKBest**:
   - 基于统计量选择前 \( k \) 个重要特征。
   - 公式：计算每个特征与目标变量的相关性评分（如 ANOVA F 值）。
   - **适用场景**: 高维数据。

2. **RFE (Recursive Feature Elimination)**:
   - 递归删除不重要特征，直到剩余目标数量的特征。
   - 通过反复训练模型，移除特征权重低的特征。
   - **适用场景**: 线性模型、决策树。

3. **SelectFromModel**:
   - 基于模型特征的重要性得分（如随机森林的 Gini 指数）。
   - **适用场景**: 使用树模型时。

4. **VarianceThreshold**:
   - 删除低方差特征。
   - **适用场景**: 特征对分类任务贡献较低。

---

### **6. 编码分类变量**

#### 工具原理：
1. **OneHotEncoder**:
   - 将分类变量编码为独热编码。
   - 适合无序分类变量。
   - 公式：假设有 3 类：`A, B, C`，编码为 `[1, 0, 0]`，`[0, 1, 0]`，`[0, 0, 1]`。

2. **LabelEncoder**:
   - 将分类标签转换为整数编码。
   - **适用场景**: 有序或无序分类变量。

3. **OrdinalEncoder**:
   - 类似于 LabelEncoder，但支持多列编码。
   - **适用场景**: 序数型特征，如 `Low, Medium, High`。

---

### **7. 处理不平衡数据**

#### 工具原理：
1. **SMOTE** (Synthetic Minority Oversampling Technique):
   - 通过插值生成少数类样本。
   - 在少数类样本之间随机选择一个样本，然后生成新样本。
   - **适用场景**: 分类任务中类别不平衡。

2. **ADASYN** (Adaptive Synthetic Sampling):
   - 自适应生成少数类样本，聚焦于边界附近的样本。
   - **适用场景**: 与 SMOTE 类似，但适合样本分布复杂的数据。
