• The estimation / regression models we have seen so far include:
• Linear regression
• LASSO
• Ridge
• Elastic Net
• The classification models we have seen so far include:
• Logistic regression
• K-nearest neighbour
• Naïve bayes
![image.png](attachment:image.png)

![image.png](attachment:image.png)

`.SMOTE()` 是一种用于处理不平衡数据集的过采样方法，全称为 "Synthetic Minority Over-sampling Technique"。在机器学习中，不平衡数据集指的是某些类别的样本数量远远少于其他类别的样本数量，这可能导致模型对少数类别的预测效果不佳。

`.SMOTE()` 的主要目标是通过合成少数类别样本来平衡数据集，从而提高模型对少数类别的预测能力。它基于以下思想：对于少数类别的样本，通过在它们与最近邻的样本之间线性插值，生成一些新的合成样本，从而增加少数类别的样本数量。这样可以使得少数类别的分布更加均衡，有助于提升模型的性能。

使用 `.SMOTE()` 方法时，需要指定一个参数 `sampling_strategy`，它用于指定合成后的少数类别样本数与多数类别样本数的比例。例如，如果设置 `sampling_strategy=0.5`，表示合成的少数类别样本数将达到多数类别样本数的一半。

以下是一个示例代码，展示了如何使用 `.SMOTE()` 方法：

```python
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification

# 创建一个不平衡数据集
X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0, n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=42)

# 使用SMOTE进行过采样
smote = SMOTE(sampling_strategy=0.5)
X_resampled, y_resampled = smote.fit_resample(X, y)
X_balance= pd.dataframe(X_balance,columns=X.columns)
```

在这个例子中，我们使用 `make_classification` 函数生成一个具有两个类别的不平衡数据集。然后，我们使用 `.SMOTE()` 方法将少数类别的样本数增加到多数类别样本数的一半，以平衡数据集。最后，`X_resampled` 和 `y_resampled` 分别是过采样后的特征和目标变量。