# 模型验证

模型验证是评估模型在新数据上的性能的重要步骤。常见的模型验证方法包括留出法、交叉验证和自助法（Bootstrap）等。

## 留出法

留出法是将数据集划分为训练集和测试集，用训练集训练模型，用测试集评估模型性能的一种方法。

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练模型
model.fit(X_train, y_train)

# 预测并计算准确率
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'留出法的准确率: {accuracy:.2f}')

## 交叉验证

交叉验证是一种常用的模型验证方法，通过将数据划分为多个子集，反复训练和验证模型，评估其性能。常见的交叉验证方法有k折交叉验证、留一法交叉验证等。

In [None]:
from sklearn.model_selection import cross_val_score, KFold

# 定义k折交叉验证
kf = KFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kf)

# 输出交叉验证得分
print(f'交叉验证得分: {scores}')
print(f'平均得分: {np.mean(scores):.2f}')

## 自助法

自助法是一种基于重采样的模型验证方法，通过多次从原始数据集中有放回地抽样，形成多个训练集和测试集，评估模型性能。

In [None]:
from sklearn.utils import resample

# 自助法验证模型
n_iterations = 100
n_size = int(len(X) * 0.7)

scores = list()
for i in range(n_iterations):
    # 重采样数据集
    X_train, y_train = resample(X, y, n_samples=n_size, random_state=i)
    X_test = np.array([x for x in X if x.tolist() not in X_train.tolist()])
    y_test = np.array([y[i] for i in range(len(y)) if X[i].tolist() not in X_train.tolist()])
    
    # 拟合模型
    model.fit(X_train, y_train)
    
    # 预测并计算准确率
    y_pred = model.predict(X_test)
    score = accuracy_score(y_test, y_pred)
    scores.append(score)

# 输出自助法的平均准确率
print(f'自助法的平均准确率: {np.mean(scores):.2f}')

通过以上示例，我们了解了留出法、交叉验证和自助法的基本原理和应用。在实际应用中，选择合适的模型验证方法对于评估模型性能至关重要。