#  机器学习练习 Scikit-learn的介绍

。

## 1.  Scikit-learn概述

Scikit-Learn (简称 Sklearn) 是基于 Python 语言的机器学习工具。它建立在 NumPy、
SciPy、Pandas和 Matplotlib 之上，里面的 API
的设计非常好，所有对象的接口简单，很适合新手上路。


代码示例：

In [1]:
import warnings
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn import svm
from scipy.stats import randint

# 忽略部分版本警告，保持输出整洁
warnings.filterwarnings('ignore')

代码示例：

In [2]:
#导入内置的鸢尾花数据
from sklearn.datasets import load_iris

iris = load_iris()
#定义数据、标签
X = iris.data
y = iris.target

## 2.2.数据预处理

### 2.2.1.数据划分

机器学习的数据，可以划分为训练集、验证集和测试集，也可以划分为训练集和测试集。

![](images/8dcde98a61699afa97dc30596cbc71d5.png)



代码示例：

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    random_state=12,
                                                    stratify=y,
                                                    test_size=0.3)
#将完整数据集的70%作为训练集，30%作为测试集，
#并使得测试集和训练集中各类别数据的比例与原始数据集比例一致(stratify分层策略)，另外可通过设置shuffle=True 提前打乱数据。

### 2.2.2.数据变换操作

sklearn.preprocessing模块包含了数据变换的主要操作（表3-5），数据变换的方法如下：

`from sklearn.preprocessing import库名称`

下表使用Scikit-learn进⾏数据变换

| 预处理操作           | 库名称             |
|----------------------|--------------------|
| 标准化               | StandardScaler     |
| 最小最大标准化       | MinMaxScaler       |
| One-Hot编码          | OneHotEncoder      |
| 归一化               | Normalizer         |
| 二值化(单个特征转换) | Binarizer          |
| 标签编码             | LabelEncoder       |
| 缺失值填补           | Imputer            |
| 多项式特征生成       | PolynomialFeatures |

代码示例：

In [3]:
# 1. 数据加载与预处理
# ==========================================
print(">>> 1. 加载葡萄酒数据集并进行预处理")
wine = load_wine()
X = wine.data
y = wine.target

# 划分训练集和测试集 (70% 训练, 30% 测试)，使用分层抽样保持类别比例
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=12, stratify=y, test_size=0.3
)

# 数据标准化
# 注意：先在训练集上fit，然后分别transform训练集和测试集，避免数据泄露
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)




>>> 1. 加载葡萄酒数据集并进行预处理


### 2.2.3.特征选择

特征选择的方法如下：

## 2.3监督学习算法

### 2.3.1.监督学习算法-回归

表常见的回归模型

| 回归模型名称   | 库名称                     |
|----------------|----------------------------|
| 线性回归       | LinearRegression           |
| 岭回归         | Ridge                      |
| LASSO回归      | LASSO                      |
| ElasticNet回归 | ElasticNet                 |
| 决策树回归     | tree.DecisionTreeRegressor |

代码示例：

In [4]:
print(f"数据集形状: {X.shape}, 类别数量: {len(wine.target_names)}")
print("-" * 50)

数据集形状: (178, 13), 类别数量: 3
--------------------------------------------------


### 2.3.2.监督学习算法-分类

表常见的分类模型

| 模型名称   | 库名称                               |
|------------|--------------------------------------|
| 逻辑回归   | linear model.LogisticRearession      |
| 支持向量机 | svm.SVC                              |
| 朴素贝叶斯 | naïve_bayes.GaussianNB               |
| KNN        | neighbors.NearestNeighbors           |
| 随机森林   | ensemble.RandomForestClassifier      |
| GBDT       | ensemble.GradientBoostingClassifier  |

代码示例：

In [5]:
# 2. 分类模型 (逻辑回归 & 决策树)
# ==========================================
print(">>> 2. 训练分类模型")

# --- 逻辑回归 (替代原代码的线性回归，因为这是分类任务) ---
# 使用标准化后的数据训练逻辑回归
lr = LogisticRegression(max_iter=1000) # 增加迭代次数以确保收敛
lr.fit(X_train_scaled, y_train)
y_pred_lr = lr.predict(X_test_scaled)
acc_lr = accuracy_score(y_test, y_pred_lr)
print(f"逻辑回归准确率: {acc_lr:.4f}")

# --- 决策树 ---
# 决策树对数据缩放不敏感，可以使用原始数据，但为了统一流程这里使用标准化数据
clf = DecisionTreeClassifier(max_depth=5, random_state=12)
clf.fit(X_train_scaled, y_train)
y_pred_clf = clf.predict(X_test_scaled)
y_prob_clf = clf.predict_proba(X_test_scaled) # 预测概率
acc_clf = accuracy_score(y_test, y_pred_clf)
print(f"决策树准确率: {acc_clf:.4f}")
print("-" * 50)

>>> 2. 训练分类模型
逻辑回归准确率: 0.9815
决策树准确率: 0.9444
--------------------------------------------------


 ## 2.4.无监督学习算法

### 2.4.1.聚类算法

sklearn.cluster模块包含了一系列无监督聚类算法，聚类使用的方法如下：

from sklearn.cluster import库名称

表常见的聚类模型

| 模型名称 | 库名称                   |
|----------|--------------------------|
| K-means  | KMeans                   |
| DBSCAN   | DBSCAN                   |
| 层次聚类 | AgglomerativeClustering  |
| 谱聚类   | SpectralClustering       |

代码示例：

In [6]:
# 3. 聚类模型 (K-Means)
# ==========================================
print(">>> 3. 训练K-Means聚类模型")
# 葡萄酒数据集有3个类别，因此我们设置聚类中心为3
kmeans = KMeans(n_clusters=3, random_state=0, n_init='auto')
kmeans.fit(X_train_scaled) # 使用标准化数据
y_pred_kmeans = kmeans.predict(X_test_scaled)
# 注意：聚类标签可能与原始标签不一致（例如0可能对应类别2），这里仅展示预测结果
print(f"聚类中心形状: {kmeans.cluster_centers_.shape}")
print(f"前10个测试样本的聚类预测结果: {y_pred_kmeans[:10]}")
print("-" * 50)

>>> 3. 训练K-Means聚类模型
聚类中心形状: (3, 13)
前10个测试样本的聚类预测结果: [2 0 2 2 0 0 1 0 0 2]
--------------------------------------------------


### 2.4.2.降维算法

Scikit-learn中降维算法都被包括在模块decomposition中，sklearn.decomposition模块本质是一个矩阵分解模块。最常见的降维方法是PCA(主成分分析)。

降维的使用的方法如下：

`from sklearn.decomposition import 库名称`

代码示例：

In [7]:
# 4. 降维 (PCA)
# ==========================================
print(">>> 4. PCA主成分分析")
# 使用全部数据进行PCA拟合以查看整体方差分布
pca = PCA(n_components=3)
X_pca = pca.fit_transform(X) # 通常在标准化数据上做PCA效果更好，这里演示使用原始数据

print("各主成分解释方差比例:", pca.explained_variance_ratio_)
print("各主成分解释方差值:", pca.explained_variance_)
print("-" * 50)

>>> 4. PCA主成分分析
各主成分解释方差比例: [9.98091230e-01 1.73591562e-03 9.49589576e-05]
各主成分解释方差值: [9.92017895e+04 1.72535266e+02 9.43811370e+00]
--------------------------------------------------


In [9]:
# 5. 模型评估 (交叉验证)
# ==========================================
print(">>> 5. 交叉验证评估")
# 使用决策树进行5折交叉验证，使用F1分数作为评价指标
# 对于多分类问题，使用 'f1_weighted' 或 'f1_macro'
clf_cv = DecisionTreeClassifier(max_depth=5, random_state=12)
scores = cross_val_score(clf_cv, X_train_scaled, y_train, cv=5, scoring='f1_weighted')


>>> 5. 交叉验证评估


## 2.6.交叉验证及超参数调优

### 2.6.1.交叉验证


![](images/2daa4a9b0a9881b23397ae6ddca0ff53.png)


代码示例：

In [10]:
print(f"决策树 5折交叉验证 F1分数: {scores}")
print(f"平均 F1 分数: {scores.mean():.4f}")
print("-" * 50)

决策树 5折交叉验证 F1分数: [0.96048583 0.83584416 1.         1.         1.        ]
平均 F1 分数: 0.9593
--------------------------------------------------


此外，Scikit-learn提供了部分带交叉验证功能的模型类如`LogisticRegressionCV`、`LassoCV`、等，这些类包含CV参数。

### 2.6.2.超参数调优

在机器学习中，超参数是指无法从数据中学习而需要在训练前提供的参数。机器学习模型的性能在很大程度上依赖于寻找最佳超参数集。


- 1.超参数调优⸺网格搜索

代码示例：

In [11]:
# --- 网格搜索 ---
print("--- 网格搜索 ---")
svc = svm.SVC()
params = {'kernel': ['linear', 'rbf'], 'C': [1, 10]}
grid_search = GridSearchCV(svc, params, cv=5)
grid_search.fit(X_train_scaled, y_train)
print(f"网格搜索最佳参数: {grid_search.best_params_}")
print(f"网格搜索最佳模型准确率: {grid_search.best_score_:.4f}")

--- 网格搜索 ---
网格搜索最佳参数: {'C': 1, 'kernel': 'linear'}
网格搜索最佳模型准确率: 0.9837


在参数网格上进行穷举搜索，方法简单但是搜索速度慢(超参数较多时)，且不容易找到参数空间中的局部最优。

- 2.超参数调优⸺随机搜索

代码示例：

In [12]:
# --- 随机搜索 ---
print("\n--- 随机搜索 ---")
svc = svm.SVC()
param_dist = {'kernel': ['linear', 'rbf'], 'C': randint(1, 20)}
random_search = RandomizedSearchCV(svc, param_dist, n_iter=10, random_state=12)
random_search.fit(X_train_scaled, y_train)
print(f"随机搜索最佳参数: {random_search.best_params_}")
print(f"随机搜索最佳模型准确率: {random_search.best_score_:.4f}")


--- 随机搜索 ---
随机搜索最佳参数: {'C': 12, 'kernel': 'rbf'}
随机搜索最佳模型准确率: 0.9837
