In [1]:
"""
加载数据集时一般情况下都是需要我们自主进行训练集、测试集的划分
sklearn中提供了 train_test_split 函数，用于数据集的划分
下面将以鸢尾花数据集为例，进行数据集的划分
"""
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

iris = load_iris()
x = iris.data
y = iris.target

x_train, x_test, y_train, y_test = train_test_split(
    x, y, train_size=0.8, shuffle=True, random_state=42
)
"""
参数说明：
    *arrays: Any,                       # 要分割的数据集（一个或多个）
    test_size: Float | None = None,     # 测试集比例/大小（传入小于1则表示比例，否则表示大小）
    train_size: Float | None = None,    # 训练集比例/大小（传入小于1则表示比例，否则表示大小）
    random_state: Int | RandomState | None = None,  # 随机种子
    shuffle: bool = True,               # 分割前是否打乱数据
    stratify: ArrayLike | None = None   # 分层抽样依据（即根据传入的某一个数组来进行分层抽样）

注意：
    test_size 和 train_size 这两个参数的值可以任意设置，只要分割后的训练集和测试集的样本数量之和不超过数据集
    建议test_size 和 train_size同时使用时，要么都设置为小于1的小数，要么都设置为大于1的整数
    当 shuffle=False 时，stratify 不能使用
"""

print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)
print(y_test)

(120, 4) (120,)
(30, 4) (30,)
[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]
