# Pattern Recognition 模式识别
- 以自动识别数据（如图像）中的模式和规律性为目标的研究领域
- 模式识别类别
  - `Supervised` 有监督的学习
    - 在一组有可用标签的数据中学习模式
  - `Unsupervised` 无监督学习
    - 在一组没有任何标签的数据中寻找模式
  - `Semi-supervised` 半监督学习
    - 使用有标签和无标签的数据组合来学习模式
  - `Weakly supervised` 弱监督学习
    - 在学习模式时使用嘈杂/有限/不精确的监督信号

- 模式识别模型
  - `Generative` 生成式模型
    - 对数据产生的 "机制 "进行建模
    - 适用于无监督学习任务（无标签的数据）
  - `Discriminative` 鉴别性模型
    - 专注于决策边界的明确建模
    - 适用于有监督的学习任务（标记的数据）


## 模式识别的概念
- 基本术语的定义和描述
  - `Objects` 是拍摄图像的（可识别的）物理实体
  - `Regions` （理想情况下）对应于图像分割后的物体
  - `Classes` 是具有共同特征的不相干的物体子集。
  - `Labels` 与物体相关联，表明它们属于哪个类别
  - `Classification` 是根据特征为对象分配标签的过程。
  - `Classifiers` 是执行分类任务的算法/方法
  - `Patterns` 是物体特征中的规律性，被分类器所使用
  - `Pre-processing` 的目的是增强图像，以便进一步处理
  - `Feature extraction` 通过测量某些属性来减少数据
  - `Feature descriptors` 代表物体的标量属性
  - `Feature vectors` 捕捉所有从数据中测量的属性
  - `Feature selection` 的目的是只保留最具描述性的特征
  - `Models` 是对类的（数学或统计）描述
  - `Training samples` 是具有已知标签的对象，用于建立模型
  - `Cost` 是做出错误的决策/分配的后果
  - `Decision boundary` 是特征空间中各区域的分界线

## Supervised learning for classification 用于分类的监督学习

- `Binary Classification` 二元分类
  - 二元分类是指将对象分为两个类别的任务, 是最简单的分类任务
  - ![image.png](attachment:image.png)

- `Nearest class mean classification` **最接近的类平均值分类**
  - 基于最小距离原则，其中 class exemplars 只是类的中心点（或平均值）
  - 计算特征向量𝑥与每个类别的中心点之间的欧几里得距离（或其他不同的距离指标）
  - 如果足够接近，则选择最接近的类（否则拒绝）
  - 优点
    - 简单
    - 快速
    - 当class紧凑且相互之间距离较远时，效果很好
  - 缺点
    - 对复杂的类（多模态、非球形）效果不佳
    - 不能很好地处理异常值和噪声数据
    - 不能处理缺失的数据
  - ![image-2.png](attachment:image-2.png)

- `K-nearest neighbours classification` **K-最近的邻居分类**
  - K-NN是一个分类器，它根据数据集中最近的K个样本来决定一个样本的类别标签
  - 邻居是从已知类别的一组训练样本中选择的
  - Classifier
    - Euclidean 欧几里得距离通常用于连续变量
    - Hamming 汉明距离通常用于离散变量
  - 优点
    - 非常简单和直观，容易实现
    - 没有先验的假设
    - 没有训练步骤，决策面是非线性的
  - 缺点
    - 对大数据集来说算法缓慢
    - 需要同质（类似性质）的特征类型和尺度
    - 当变量数量增加时表现不佳（维度的诅咒）
    - 寻找最佳的K（邻域数）是一个挑战
  - ![image-3.png](attachment:image-3.png)

- `Bayesian decision theory and classification` **贝叶斯决策理论和分类**
  - 贝叶斯分类法将一个物体分配到它最可能属于的类别中
  - 分类器的决定可能正确，也可能不正确，所以它们应该是概率性的（软决定而不是硬决定）
  - 概率分布可用于做出预期错误率最低的分类决策
  - ![image-4.png](attachment:image-4.png)
  - 贝叶斯决策风险
    - 如果我们只关心分类的准确性（所有类型的鱼的价格都一样），那么我们可以通过最大化后验概率来做出决定
    - 如果价格不一样，我们就使损失最小化，损失是一个函数用来惩罚错误的决定
    - 一个最佳的贝叶斯决策策略是使条件风险最小化
    - ![image-5.png](attachment:image-5.png)
  - 优点
    - 简单而直观
    - 考虑到不确定因素
    - 允许将新信息与现有知识相结合
  - 缺点
    - 计算成本高
    - 预测的选择可能是主观的

- `Decision trees for classification` **决策树的分类**
  - 对于任何新的样本，从树的顶部开始，回答问题，沿着适当的路径到底部，然后决定标签
  - 我们必须根据一些标准来选择能提供 "最佳 "树的特征。 在计算上，最小的树是首选
  - ![image-6.png](attachment:image-6.png)
  - 优点
    - 易于解释
    - 可以处理数字和分类数据
    - 对离群值和缺失值有很好的适应性
    - 提供关于特征重要性的信息（特征选择）
  - 缺点
    - 倾向于过度拟合
    - 只有轴对齐的拆分
    - 贪婪的算法（可能找不到最好的树）
  - 决策树构建算法
    1. 选择一个特征放在节点上（第一个是根）
    2. 为每个可能的值（标称）或范围（数值）做一个分支
    3. 对于每个分支节点，只使用那些实际到达分支的样本，重复步骤1和2
    4. 当一个节点上的所有样本都有相同的分类（或标签）时，停止生长该部分树
  - 如何确定在哪个特征上进行分割？ 一种方法是使用信息论的测量方法
    - Entropy 熵
      - 熵可以被看作是信息源的平均不确定性
      - 选择具有最低熵的特征进行分割
      - ![image-7.png](attachment:image-7.png)
    - Information Gain 信息增益
      - 信息增益是一种基于熵的测量方法，用于指导使用哪种特征来产生最佳决策树
      - 在特征X的条件下，类Y的不确定性减少的程度
      - 用base熵减去条件熵来计算
      - 使用具有最高信息增益的特征进行分割
      - ![image-8.png](attachment:image-8.png)
      - ![image-9.png](attachment:image-9.png)
      - ![image-10.png](attachment:image-10.png)

- `Ensemble learning and random forests` **集合学习和随机森林**
  - 集合学习将多个模型结合起来，与任何一个组成模型相比，提高预测性能
    - 可以使用以下方法创建多个模型
      - 不同的分类器/学习算法
      - 同一算法的不同参数
      - 不同的训练实例
      - 不同的特征集
  - 随机森林是一种集合学习方法
    - 通过训练构建一个决策树的集合体
    - 通过单个树输出所有类别的大部分结果
    - 克服了决策树的过拟合习惯
    - Breiman’s algorithm
    - 优点
      - 对于许多问题，在传统的分类算法中具有很高的准确性
      - 在大型数据集上高效地工作
      - 处理数以千计的输入特征，不需要特征选择
      - 有效处理缺失值
    - 缺点
      - 与单个决策树相比，可解释性较差
      - 与决策树相比，构造更复杂，更耗时

- `Simple linear classifies` **简单的线性分类器**
  - 是一个线性函数，它将输入特征映射到一个二进制输出标签
  ![image-11.png](attachment:image-11.png)

- `Support vector machines (SVMs)` **支持向量机**
  - 最大化边际--到最近的样本的距离
    - ![image-12.png](attachment:image-12.png)
  - Soft Margin Support Vector Machines
    - 允许一些样本落在边界对面, 能够更好地处理噪声数据
  - 优点
    - 在高维的特征空间中非常有效
    - 当特征的数量大于训练数据的大小时非常有效
    - 当类是（很好）可分离的时候，是最好的算法之一
    - 当数据稀疏时，效果非常好
    - 可以通过内核技巧扩展到非线性分类。
  - 缺点
    - 对于较大的数据集，需要更多的时间来处理
    - 对于重叠的类别表现不佳
    - 需要对超参数进行调整以获得足够的泛化效果

- `Multiclass classification` **多级分类法**
  - 如果有两个以上的类，我们必须建立一个多类分类器
  - 有些方法可以直接用于多类分类：
    - K-最近的邻居
    - 决策树
    - 贝叶斯技术
  - 对于那些不能直接用于多类问题的方法，我们可以通过建立多个二进制分类器将其转化为二进制分类。
  - 用二进制分类器进行多类分类的两种可能技术：
    - One versus rest：为一个类与其他类建立一个分类器，并将测试样本分配给具有最高置信度的类。
    - One versus one：为每一对类建立一个分类器，并将测试样本分配给预测次数最多的类。
    - ![image-13.png](attachment:image-13.png)

## Classification performance evaluation 分类性能评估

- `False Alarms and False Dismissals`
  - 对于两类分类问题，两种可能的错误类型具有特殊的含义，而且不是对称的
  - 例如，在医疗诊断中：
    - 如果这个人没有得病，但系统错误地说他们得了病，那么这个错误就是假警报或假阳性（也叫I型错误）。
    - 如果这个人确实有病，但系统错误地说他们没有，那么这个错误就是错误的排除或假阴性（也称为II型错误）。
  - 这两种错误的后果和代价可能非常不同
    - 两者都有不良后果，但假阴性通常更具有灾难性。
    - 因此，目的是尽量减少假阴性，可能要以增加假阳性为代价。
    - 这两种错误的最佳/可接受的平衡取决于应用。

- `Receiver Operating Curve (ROC)` **接收者操作曲线**
  - 接收者操作曲线（ROC）将误报率（假阳性）与正确检测率（真阳性）联系起来。
  - 绘制正确检测率（真阳性）与误报（假阳性）率的对比图
  - 一般来说，随着试图正确检测更高比例的已知物体，误报率会上升。
  - ROC下的面积（AUC或UROC）概括了总体性能
  - ![image.png](attachment:image.png)

- `Confusion Matrix` **混乱矩阵**
  - 矩阵，其条目(i, j)记录了i类物体被分类为j类的次数。
  - 通常用于报告分类实验的结果
  - 对角线上的条目表示成功
  - 对角线外的高数字表示类别之间的混淆
  - ![image-2.png](attachment:image-2.png)

- `Binary Confusion Matrix` **二元混淆矩阵**
  - ![image-3.png](attachment:image-3.png)

- `Precision versus Recall` **精度与召回率**
  - Precision / correctness
    - 所选元素中相关元素的比例
  - Recall / sensitivity / completeness
    - 所选元素在相关元素中的比例
  - F1 score
    - 精度和召回率的谐波平均值
  - ![image-4.png](attachment:image-4.png)


## Supervised learning for regression 用于回归的监督学习

- `Linear regression` 线性回归
- `Least-squares regression` 最小二乘法回归
- `Regression performance evaluation` 回归性能评估