# 人工智能与机器学习

什么是人工智能？

人工智能（Artificial Intelligence，简称 AI）是一门研究如何让计算机或机器模拟、延伸和扩展人类智能的科学与技术，核心目标是让系统具备 学习、推理、感知和决策 的能力，从而完成原本需要人类智慧才能完成的任务。

人工智能的定义
- 学科属性：人工智能是计算机科学的一个分支，同时涉及心理学、哲学、语言学等多学科交叉。
- 核心思想：通过算法和模型，让机器能够像人类一样处理信息、解决问题。
- 研究目标：制造能感知环境、学习经验并采取行动的“智能机器”


什么是机器学习
- 定义：机器学习（Machine Learning）是人工智能的一个分支，核心思想是让计算机通过数据学习模式和规律，从而在新数据上做出预测或分类。
- 本质：模仿人类的学习方式——总结经验、发现规律、应用到新问题。


机器学习的主要类型
| 类型 | 特点 | 应用示例 | 
|-|-|-|
| 监督学习 | 使用带标签的数据训练模型，预测输出 | 房价预测、垃圾邮件分类 | 
| 无监督学习 | 没有标签，发现数据隐藏结构 | 客户分群、数据降维 | 
| 半监督学习 | 少量有标签 + 大量无标签数据 | 医学影像识别 | 
| 强化学习 | 与环境交互，通过奖励优化策略 | 游戏AI、自动驾驶 | 


基本流程
- 数据收集：获取结构化或非结构化数据。
- 数据预处理：清洗、标准化、特征工程。
- 选择模型：根据任务选择合适算法（如回归、分类、聚类）。
- 训练模型：用训练集优化参数，减少预测误差。
- 评估模型：用测试集验证性能，常用指标有准确率、召回率、F1分数。
- 部署与优化：上线应用并持续更新模型。


 机器学习的主要任务类别
| 任务类型 | 特点 | 常见算法 | 应用场景 | 
|-|-|-|-|
| 分类 (Classification)| 输入数据 → 输出离散类别标签 | 逻辑回归、决策树、随机森林、SVM、KNN、朴素贝叶斯 | 垃圾邮件识别、疾病诊断、人脸识别 | 
| 回归 (Regression) | 输入数据 → 输出连续数值 | 线性回归、岭回归、Lasso回归、SVR、随机森林回归 | 房价预测、销售额预测、天气温度预测 | 
| 聚类 (Clustering) | 无监督学习，将数据分组 | K-means、DBSCAN、层次聚类 | 客户分群、图像分割、市场分析 | 
| 降维 (Dimensionality Reduction) | 压缩高维数据，提取主要特征 | PCA、LDA、t-SNE、NMF | 数据可视化、特征选择、去噪 | 
| 异常检测 (Anomaly Detection) |识别偏离正常模式的数据 | Isolation Forest、One-Class SVM | 欺诈检测、设备故障预警 | 
| 推荐 (Recommendation) | 根据用户行为推荐内容 | 协同过滤、矩阵分解、深度学习推荐模型 | 电商推荐、视频推荐、音乐推荐 | 
| 强化学习 (Reinforcement Learning) | 通过与环境交互学习策略 | Q-learning、深度强化学习 | 游戏AI、自动驾驶、机器人控制 | 

机器学习常用算法主要包括 线性回归、逻辑回归、决策树、支持向量机、K近邻、朴素贝叶斯、随机森林、梯度提升、K-means 聚类、PCA降维 等，它们分别适用于分类、回归、聚类和降维等不同任务

常见机器学习算法分类与应用
| 算法 | 类型 | 核心思想 | 常见应用场景 | 
|-|-|-|-|
| 线性回归 (Linear Regression) | 回归 | 用直线或超平面拟合数据关系 | 房价预测、销售额预测 | 
| 逻辑回归 (Logistic Regression) | 分类 | 使用 Sigmoid 函数输出概率 |垃圾邮件识别、疾病诊断 | 
| 决策树 (Decision Tree) | 分类/回归 | 通过特征划分形成树状结构 | 风险评估、信用评分 | 
| 支持向量机 (SVM) | 分类/回归 | 最大化分类边界间隔 | 图像识别、文本分类 | 
| K近邻 (KNN) | 分类/回归 | 根据最近邻居投票或平均 | 手写数字识别、推荐系统 | 
| 朴素贝叶斯 (Naive Bayes) | 分类 | 基于条件概率的简单模型 | 文本分类、情感分析 | 
|随机森林 (Random Forest) | 集成学习 | 多棵决策树投票或平均 | 股票预测、复杂分类 | 
| 梯度提升 (Gradient Boosting / XGBoost) | 集成学习 | 弱学习器迭代提升性能 | Kaggle竞赛、金融预测 | 
| K-means 聚类 | 无监督学习 | 将数据划分为 K 个簇 | 客户分群、图像分割 | 
| PCA 主成分分析 | 降维 | 提取主要成分减少维度 | 高维数据可视化、特征压缩 | 






# SKLearn库初识

## 什么是sklearn库？

Scikit-learn（简称 sklearn）是一个基于 Python 的开源机器学习库，提供了从数据预处理、特征工程到分类、回归、聚类、降维、模型选择与评估的一整套工具，因其 易用性、统一的 API、丰富的算法库 而成为传统机器学习的首选库。

sklearn 的核心特点：
- 开源与跨平台：建立在 NumPy、SciPy、matplotlib 等科学计算库之上。
- 统一的 API：所有模型都遵循 fit、predict、score 等方法，降低学习成本。
- 丰富的算法库：支持分类、回归、聚类、降维等常见任务。
- 数据预处理功能强大：提供标准化、归一化、独热编码、缺失值填充等工具。
- 模型选择与评估：支持交叉验证、网格搜索、随机搜索等超参数优化方法。
- 兼容性好：与 NumPy、Pandas、matplotlib 等库无缝结合。


sklearn 的主要模块
| 模块 | 功能 | 示例 | 
|-|-|-|
| datasets | 提供经典数据集与数据生成器 | load_iris(),fetch_openml() | 
| preprocessing | 数据预处理与特征工程 | StandardScaler,OneHotEncoder | 
| model_selection | 数据集划分与模型选择 | train_test_split,GridSearchCV | 
| linear_model | 线性模型 | LinearRegression,LogisticRegression | 
| svm | 支持向量机 | SVC,SVR | 
| tree | 决策树模型 | DecisionTreeClassifier | 
| ensemble | 集成学习 | RandomForest,GradientBoosting | 
| cluster | 聚类算法 | KMeans,DBSCAN | 
| decomposition | 降维方法 | PCA,NMF | 

sklearn 的优势
- 易用性：统一 API，降低学习曲线。
- 丰富算法：涵盖常见机器学习方法。
- 可扩展性：与 Pandas、matplotlib 等库无缝结合。
- 教学友好：自带数据集，适合课堂演示与实验。

局限性
- 不适合 深度学习（需用 TensorFlow、PyTorch）。
- 在 超大规模数据 上性能有限。


# 使用sklearn转换器处理数据

## 加载datasets模块中的数据集

datasets 是 sklearn 提供的一个子模块，主要用于加载和生成数据集。它既包含一些经典的内置数据集（适合教学和实验），也支持从外部数据源获取数据，还能生成模拟数据集用于算法测试。


datasets模块中常用数据集的加载函数及其解释

|数据集加载函数|数据集任务类型|特点|应用场景|
|-|-|-|-|
|load_boston|回归|波士顿房价数据集，包含房价与地理、经济、社会因素的关系（已因伦理问题在新版 sklearn 中弃用）。|房价预测、回归建模示例|
|fetch_california_housing|回归|加州房价数据集，替代 load_boston，包含 20,000+ 条样本，特征如收入、房间数、人口等。|房价预测、大规模回归任务|
|load_digits|分类|手写数字识别数据集，包含 0–9 的数字图像（8x8 灰度图）。|图像分类、模式识别|
|load_diabetes|回归|糖尿病数据集，包含患者的健康指标（年龄、体重、血压等）与疾病进展。|医疗数据建模、回归分析|
|load_breast_cancer|分类、聚类|乳腺癌诊断数据集，特征来自肿瘤图像，标签为良性或恶性。|医学诊断、二分类任务|
|load_iris|分类、聚类|鸢尾花数据集，包含 3 种鸢尾花的花萼和花瓣特征。|分类入门案例、聚类演示|
|load_wine|分类|葡萄酒数据集，包含化学成分特征与葡萄酒类别。|多分类任务、特征选择|
|load_linnerud|回归|健身数据集，包含运动表现（俯卧撑、引体向上、深蹲）与生理指标（体重、脉搏、呼吸）。|多输出回归任务|

In [None]:
from sklearn.datasets import load_diabetes

In [None]:
diabetes = load_diabetes()  # 将数据集赋值给diabetes变量

In [None]:
diabetes

In [None]:
print('diabetes数据集的长度为：', len(diabetes))
print('diabetes数据集的类型为：', type(diabetes))

 主要属性说明
- data
    - 类型：numpy.ndarray
    - 内容：特征矩阵，每一行代表一个样本，每一列代表一个特征。
    - 示例：在 load_iris() 中，data.shape 为 (150, 4)，表示 150 个样本，每个样本有 4 个特征。
- target
    - 类型：numpy.ndarray
    - 内容：标签向量，存储每个样本对应的类别或数值。
    - 示例：在 load_iris() 中，target.shape 为 (150,)，值为 0、1、2，分别对应三种鸢尾花类别。
- data_filename
    - 类型：字符串
    - 内容：数据文件的路径（通常是 sklearn 内部缓存的 .csv 或 .npz 文件）。
    - 用途：主要用于调试或定位原始数据文件，一般用户不需要直接使用。
- target_filename
    - 类型：字符串
    - 内容：标签文件的路径（同样是 sklearn 内部缓存的文件）。
    - 用途：和 data_filename 类似，主要是内部定位。
- data_module
    - 类型：字符串
    - 内容：指明数据集所属的模块路径。
    - 示例：'sklearn.datasets.data'，表示该数据集来自 sklearn.datasets 模块。


加载后的数据集可以视为一个字典，几乎所有的sklearn数据集均可以使用data、target、feature_names、DESCR属性分别获得数据集的数据、标签数组、特征名和描述信息。

In [None]:
diabetes_data = diabetes['data']

In [None]:
diabetes_data

In [None]:
diabetes_target = diabetes['target']

In [None]:
diabetes_target

In [None]:
diabetes_names = diabetes['feature_names']

In [None]:
diabetes_names

In [None]:
diabetes_desc = diabetes['DESCR']

In [None]:
print(diabetes_desc)

## 将数据集划分为训练集和测试集

在机器学习中，训练集用于训练模型，验证集用于调参和模型选择，测试集用于最终性能评估。三者各自独立，合理划分才能保证模型的泛化能力。

三者的区别与作用
| 数据集 | 作用 | 特点 | 举例类比 | 
|-|-|-|-|
| 训练集 (Training Set) | 用于拟合模型参数，让模型学会规律 | 数据量最大，直接参与参数更新 | 学生的课本：通过课本学习知识 | 
| 验证集 (Validation Set) | 用于调节超参数、模型选择、早停等 | 独立于训练集，常用于监控过拟合 | 学生的作业：通过作业检查学习效果并调整学习方法 | 
| 测试集 (Test Set) | 用于最终评估模型的泛化能力 | 完全独立，不参与训练或调参 | 学生的考试：考察是否能举一反三，检验真实水平 | 


关键点解析
- 训练集：模型通过它学习特征和规律，更新权重和偏置。
- 验证集：帮助选择最佳超参数（如学习率、层数、正则化系数），避免过拟合。
- 测试集：只在模型最终确定后使用，用来衡量模型在真实场景中的表现。

常见误区与风险
- 混淆验证集和测试集：验证集参与调优，测试集只做最终评估。
- 数据泄漏 (Data Leakage)：如果测试集数据提前进入训练过程，评估结果就失去意义。
- 过拟合验证集：频繁调参可能导致模型对验证集过拟合，因此有时需要额外保留独立测试集。

见划分比例
- 70% 训练集 / 15% 验证集 / 15% 测试集
- 或者 80% 训练集 / 10% 验证集 / 10% 测试集

具体比例取决于数据量大小和任务需求。


在sklearn中，经常采用数据集切分方法为train_test_split函数

函数基本信息
- 位置：sklearn.model_selection.train_test_split
- 作用：将输入的数组或矩阵拆分为训练集和测试集。


```
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,       # 测试集占比（20%）
    train_size=None,     # 训练集占比（可选，默认自动补足）
    random_state=42,     # 随机种子，保证结果可复现
    shuffle=True,        # 是否在划分前打乱数据
    stratify=y           # 按标签分层抽样，保证类别比例一致
)

```

参数说明
- X：特征数据（二维数组或矩阵）。
- y：标签数据（可选，一维数组）。
- test_size：测试集大小，可以是比例（如 0.2）或具体样本数（如 100）。
- train_size：训练集大小，通常不用设置，默认是剩余部分。
- random_state：随机数种子，设定后每次划分结果一致。
- shuffle：是否打乱数据，默认 True。
- stratify：分层抽样，常用于分类任务，保证训练集和测试集的类别比例一致。

返回值
- X_train：训练集特征
- X_test：测试集特征
- y_train：训练集标签
- y_test：测试集标签


In [None]:
print('原始数据集数据的形状为：', diabetes_data.shape)
print('原始数据集标签的形状为：', diabetes_target.shape)

In [None]:
from sklearn.model_selection import train_test_split
diabetes_data_train, diabetes_data_test, diabetes_target_train, diabetes_target_test = train_test_split(diabetes_data, diabetes_target, test_size=0.2, random_state=42) 

In [None]:
print('训练集数据的形状为：', diabetes_data_train.shape)
print('训练集标签的形状为：', diabetes_target_train.shape)
print('测试集数据的形状为：', diabetes_data_test.shape)
print('测试集标签的形状为：', diabetes_target_test.shape)

## 使用sklearn转换器进行数据预处理

在 scikit-learn 中，所谓的 转换器（Transformer），指的是那些可以对数据进行 预处理或特征变换 的对象。它们遵循统一的接口规范。

Transformer 的核心方法
- fit(X, y=None)
    - 学习数据中的统计信息（例如均值、方差、最大值、最小值等），为后续转换做准备。
- transform(X)
    - 根据 fit 学到的规则，对数据进行实际转换。
- fit_transform(X, y=None)
    - 先 fit 再 transform，常用于一步完成。



常见的转换器类型
| 类别 | 示例 | 功能 | 
|-|-|-|
| 标准化/归一化 | StandardScaler,MinMaxScaler,RobustScaler | 调整特征的尺度，使不同特征可比较 | 
|编码器 | OneHotEncoder,LabelEncoder,OrdinalEncoder | 将类别型数据转换为数值型 | 
| 缺失值处理 | SimpleImputer,KNNImputer | 填补缺失值 | 
| 特征选择/降维 | PCA,SelectKBest,VarianceThreshold | 提取主要特征，减少维度 | 
| 多项式特征 | PolynomialFeatures | 生成高阶特征，提升模型表达能力 | 
| 文本处理 | CountVectorizer,TfidfVectorizer | 将文本转化为向量表示 | 
| 预处理流水线 | Pipeline,ColumnTransformer | 将多个转换器和模型组合在一起 | 


常见预处理函数与类
1. 标准化与归一化
- StandardScaler：将特征缩放为均值 0、方差 1。
- MinMaxScaler：将特征缩放到指定区间（默认 [0,1]）。
- MaxAbsScaler：按最大绝对值缩放，适合稀疏数据。
- RobustScaler：使用中位数和四分位数缩放，抗异常值。
2. 数据变换
- Normalizer：将样本缩放到单位范数（常用于文本或向量）。
- PowerTransformer：应用幂变换（如 Box-Cox、Yeo-Johnson），使数据更接近正态分布。
- QuantileTransformer：将数据映射到均匀分布或正态分布。
- FunctionTransformer：自定义函数式变换。
3. 编码器
- LabelEncoder：将类别标签转为整数。
- OneHotEncoder：将类别特征转为独热编码。
- OrdinalEncoder：将类别特征转为有序整数。
4. 缺失值处理
- SimpleImputer：用均值、中位数、众数或常量填补缺失值。
- KNNImputer：基于 K 最近邻填补缺失值。
5. 特征生成与选择
- PolynomialFeatures：生成多项式和交互特征。
- Binarizer：按阈值将数值特征二值化。
- VarianceThreshold：移除低方差特征。




In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [None]:
Scaler = MinMaxScaler().fit(diabetes_data_train)  # 生成规则
# 此处生成规则使用了训练集

In [None]:
# 将规则应用于训练集
diabetes_trainScaler = Scaler.transform(diabetes_data_train) 
# 将规则应用于测试集
diabetes_testScaler = Scaler.transform(diabetes_data_test) 
#此处测试集的结果不符合预期（大于1或小于0）的原因是使用的规则是基于训练集的

In [None]:
print('离差标准化前训练集数据的最小值为：', np.min(diabetes_data_train))
print('离差标准化后训练集数据的最小值为：', np.min(diabetes_trainScaler))
print('离差标准化前训练集数据的最大值为：', np.max(diabetes_data_train))
print('离差标准化后训练集数据的最大值为：', np.max(diabetes_trainScaler))
print('离差标准化前测试集数据的最小值为：', np.min(diabetes_data_test))
print('离差标准化后测试集数据的最小值为：', np.min(diabetes_testScaler))
print('离差标准化前测试集数据的最大值为：', np.max(diabetes_data_test))
print('离差标准化后测试集数据的最大值为：', np.max(diabetes_testScaler))

在 scikit-learn 中，PCA（主成分分析，Principal Component Analysis）是一个常用的 降维方法，用于将高维数据映射到低维空间，同时尽量保留数据的主要信息。它位于 sklearn.decomposition 模块。

PCA类主要参数
| 参数 | 类型 | 作用 | 
|-|-|-|
| n_components | int/float/str/None |保留的主成分数。可指定维度、方差比例或自动选择（MLE）。 | 
| copy | bool | 是否复制原始数据。False时会覆盖输入。 | 
| whiten | bool | 是否进行白化，使输出特征方差相同。 | 
| svd_solver | {‘auto’, ‘full’, ‘arpack’, ‘randomized’, ‘covariance_eigh’} | 奇异值分解方法，适配不同数据规模。 | 
| tol | float |SVD计算容差（仅对arpack有效）。| 
| random_state | int/None | 随机数种子，保证结果可复现。 | 

常用属性
- components_：主成分方向向量（特征空间中的主轴）。
- explained_variance_：各主成分的方差值。
- explained_variance_ratio_：各主成分方差占总方差的比例（贡献率）。
- singular_values_：对应的奇异值。
- mean_：训练数据的均值。
- n_features_：特征数。
- n_samples_：样本数。


常用方法
- fit(X)：训练PCA模型。
- fit_transform(X)：训练并直接返回降维后的数据。
- transform(X)：将新数据映射到主成分空间。
- inverse_transform(X)：将降维数据近似还原到原始空间。
- get_covariance()：返回协方差矩阵。
- score(X)：计算样本的平均对数似然。





In [None]:
from sklearn.decomposition import PCA
pca_model = PCA(n_components=8).fit(diabetes_trainScaler) 

In [None]:
# 将规则应用于训练集
diabetes_trainPca = pca_model.transform(diabetes_trainScaler) 
# 将规则应用于测试集
diabetes_testPca = pca_model.transform(diabetes_testScaler)

In [None]:
print('PCA降维前训练集数据的形状为：', diabetes_trainScaler.shape)
print('PCA降维后训练集数据的形状为：', diabetes_trainPca.shape)
print('PCA降维前测试集数据的形状为：', diabetes_testScaler.shape)
print('PCA降维后测试集数据的形状为：', diabetes_testPca.shape)