## 1
KFold是一个用于交叉验证的方法，它将数据集随机分为k个互斥的子集（也称为“折叠”），然后对模型进行训练和测试。在交叉验证期间，每个子集都会轮流充当测试集一次，而其余的k-1个子集则作为训练集。这种方法可以帮助我们更准确地评估模型的性能，因为它使用了更多的数据来进行训练和测试。

下面是一个使用KFold实现交叉验证的示例代码：

In [11]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# 加载鸢尾花数据集
iris = load_iris()

# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 创建KFold对象
kfold = KFold(n_splits=5, shuffle=True)

# 使用交叉验证计算模型的精度
scores = cross_val_score(knn, iris.data, iris.target, cv=kfold)

# 打印精度得分
print(scores)

[0.93333333 0.93333333 1.         0.96666667 0.96666667]


在上面的示例中，我们创建了一个包含5个折叠的KFold对象，并将其传递给cross_val_score函数。该函数执行5次训练和测试，并返回一个包含每次测试得分的数组。我们最终打印出所有5次测试得分以及它们的平均值。注意，我们还可以通过设置 shuffle=True 来打乱数据集的顺序以增加模型的泛化能力。

## 2
以下是使用LogisticRegression模型和KFold交叉验证计算精度的示例代码：

In [12]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression

# 加载鸢尾花数据集
iris = load_iris()

# 创建逻辑回归分类器
logreg = LogisticRegression(solver='liblinear', multi_class='auto')

# 创建KFold对象
kfold = KFold(n_splits=5, shuffle=True)

# 使用交叉验证计算模型的精度
scores = cross_val_score(logreg, iris.data, iris.target, cv=kfold)

# 打印精度得分
print(scores)

[0.93333333 1.         0.93333333 0.96666667 0.96666667]


在这个示例中，我们创建了一个包含5个折叠的KFold对象，将其传递给cross_val_score函数，并使用LogisticRegression模型进行训练和测试。最后，我们打印出所有5次测试得分以及它们的平均值。

请注意，我们在实例化LogisticRegression时指定了solver='liblinear'和multi_class='auto'参数，这是因为默认情况下，scikit-learn会使用不同的求解器（solver）和多类别分类策略（multi-class strategy）对问题进行求解。由于数据集较小且简单，我们可以使用默认设置。但如果您在处理更大、更复杂的数据集时，您可能需要优化这些参数以获得更好的性能。

## 3
以下是使用recall_score作为评分指标的示例代码：

In [13]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import make_scorer, recall_score

# 加载鸢尾花数据集
iris = load_iris()

# 创建逻辑回归分类器
logreg = LogisticRegression(solver='liblinear', multi_class='auto')

# 创建KFold对象
kfold = KFold(n_splits=5, shuffle=True)

# 创建recall_score评分器
scorer = make_scorer(recall_score, average='macro')

# 使用交叉验证计算模型的精度
scores = cross_val_score(logreg, iris.data, iris.target, cv=kfold, scoring=scorer)

# 打印精度得分
print(scores)

[1.         0.96969697 0.85858586 0.93939394 1.        ]


在这个示例中，我们创建了一个包含5个折叠的KFold对象，将其传递给cross_val_score函数，并使用LogisticRegression模型进行训练和测试。我们还使用make_scorer函数创建了一个评分器，它将recall_score作为评分指标，并设置average='macro'来计算每个类别的平均值。最后，我们将评分器传递给cross_val_score函数的scoring参数中以计算所有测试得分的平均值。

请注意，在这个示例中，我们使用make_scorer函数将recall_score转换为一个得分函数，这样才能传递给cross_val_score函数。如果您想使用其他的评分指标，可以将它们转换为得分函数并将它们传递给make_scorer函数即可。

In [16]:
print(iris.data)
# print(iris.target)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [17]:
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification

# 生成一个不平衡分类数据集
X, y = make_classification(n_classes=2, class_sep=2,
                           weights=[0.1, 0.9], n_informative=3,
                           n_redundant=1, flip_y=0, n_features=20,
                           n_clusters_per_class=1, n_samples=1000,
                           random_state=10)

# 对样本进行过采样
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# 查看过采样后的样本数目
print(f"原始样本数：{len(X)}")
print(f"过采样后样本数：{len(X_resampled)}")

原始样本数：1000
过采样后样本数：1800
