QuantileTransformer和quantile_transform提供了一种非参数转换，以将数据映射到值介于0和1之间的均匀分布：

In [17]:
# 从 sklearn 库导入鸢尾花数据集加载函数
from sklearn.datasets import load_iris
# 导入训练集和测试集分割函数
from sklearn.model_selection import train_test_split
# 加载鸢尾花数据集，X 是特征（花瓣长度、宽度等），y 是标签（花的类别）
X, y = load_iris(return_X_y=True)

In [18]:
# 将数据集拆分为训练集（75%）和测试集（25%），random_state=0 确保每次拆分结果相同
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [19]:
# 创建分位数转换器实例，用于将数据转换为均匀分布
# random_state=0 确保结果可复现
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)

In [20]:
# 对训练数据进行拟合和转换：
# - 拟合：从训练数据中学习特征的分布（比如找到各个分位数的位置）
# - 转换：根据学习到的分布，将数据映射到均匀分布（值范围0~1）
X_train_trans = quantile_transformer.fit_transform(X_train)



In [21]:
# 对测试数据进行转换：
# 注意这里只用 transform，因为要使用训练数据学习到的分布（避免测试数据泄露）
X_test_trans = quantile_transformer.transform(X_test)

In [22]:
# 查看原始训练数据中第一个特征（花萼长度）的关键百分位数：
# 0%分位数（最小值）=4.3，25%分位数=5.1，50%分位数（中位数）=5.8，
# 75%分位数=6.5，100%分位数（最大值）=7.9
np.percentile(X_train[:, 0], [0, 25, 50, 75, 100])

array([4.3, 5.1, 5.8, 6.5, 7.9])

In [23]:
np.percentile(X_train[:, 0], [0, 25, 50, 75, 100]) 

array([4.3, 5.1, 5.8, 6.5, 7.9])

In [24]:
# 此特征对应以厘米为单位的花萼长度。一旦应用了分位数转换，这些界标便会接近先前定义的百分位数：
np.percentile(X_train_trans[:, 0], [0, 25, 50, 75, 100])

array([0.        , 0.23873874, 0.50900901, 0.74324324, 1.        ])