# Decision Tree
决策树是一种常用于分类和回归任务的预测模型。在决策树中，数据被一系列问题所分割，这些问题基于数据的属性来进行。每一次数据分割可以视为一个“决策”，这些决策从根部开始，直到达到叶节点结束，叶节点提供了最终的预测结果。下面是对决策树的详细解释。

决策树通过一系列的查询序列来得出结论，其核心思想是将多个小决策组合以形成良好的选择策略。每一个决策点称为一个节点(Node)，最终的预测结果位于叶节点。

- 决策树能够直观地描述决策问题，它描绘了关键决策变量、时间序列和可用信息：
  - **选择（Alternatives）**：决策者可以采取的不同选择。
  - **可能的结果及其概率（Possible outcomes and associated probabilities）**：每个选择可能导致的结果及其概率。
  - **每个可能结果的收益和损失（Gains and losses）**：每个结果可能导致的收益或损失。

### 决策树的节点(Node)类型

- **决策节点（Decision node，正方形）**：
  - 当决策者需要做出选择时使用。
- **概率节点（Probability node，圆形），也称为“机会”或“事件”节点**：
  - 当不确定事件的结果变得已知时使用。
- **结束节点（End node，三角形），也称为“叶”节点**：
  - 当问题结束时使用（所有决策已做出，所有不确定性已解决，所有收益/成本已产生）。

### 决策树的分支(Branch)类型

- **选择分支（Alternative branches）**：
  - 从决策节点开始，代表决策者面临的不同选择，决策者需要从中选择一个。
- **概率分支（Probability branches）**：
  - 从概率节点开始，代表不确定事件的可能结果，决策者无法控制哪个结果会发生，但可以为每个分支指定一个概率。

### 决策树的时间进程

- 时间从左到右进行：进入节点（从左侧）的任何分支都已经发生；从节点出发（向右侧）的任何分支都尚未发生。

决策树不仅在机器学习中非常有用，在帮助决策者可视化决策过程和结果的可能性方面也是一种强大的工具。在构建机器学习模型的上下文中，决策树利用训练数据自动形成这些问题序列，以便有效地对新的数据实例进行分类或回归预测。

# 预期货币价值 Expected Monetary Value(EMV)

在决策分析中，当面对多个备选方案时，预期货币价值（Expected Monetary Value，简称 EMV）是一种常用的决策准则。它可以帮助决策者量化每个选项的潜在经济效益，并选择具有最大预期收益的方案。以下是关于如何计算和使用预期货币价值（EMV）的详细解释。

- **定义**：预期货币价值（EMV）是可能结果的加权平均值，其中权重是这些结果发生的概率。

- 如果 $V_i$ 是与结果 $i$ 对应的货币价值，$P_i$ 是它的概率，那么预期货币价值定义为：
    
    $$
    EMV = \sum_{i} V_i P_i
    $$

  - 这个公式计算的是各种可能结果的预期值，每个结果的货币价值乘以它发生的概率，然后将这些乘积相加。

### 如何选择备选方案？

- **最大EMV准则 - Optimal**：
  - 一个常见的选择方法是计算每个备选方案的EMV，然后选择具有最大EMV的方案。
  - 最大EMV准则结合了收益信息和概率信息，来确定具有最高预期价值的决策。

### 实际应用

- 在商业决策、投资评估和风险管理等场景中，EMV是评估不同战略选择的重要工具。
- 这种方法尤其适用于那些结果可以被量化为货币价值，且对结果概率有合理估计的情况。

通过计算EMV，决策者可以在不确定性和风险的基础上做出信息化的选择。然而，需要注意的是，选择最大EMV的方案可能并不总是最佳策略，特别是当决策者对风险有不同的态度时。在某些情况下，决策者可能会更重视风险规避，即使这意味着选择一个预期收益较低的安全方案。因此，除了EMV，还需要考虑决策者的风险偏好。

解决决策树问题的一个关键步骤是“回折”（folding back）过程。这个过程从决策树的最右侧开始，逐步向左移动，通过计算和比较预期货币价值（EMV）来做出决策。下面详细介绍这个过程。

### 决策树的回折过程

1. **起始点**：
   - 回折过程从决策树的最右侧开始，即从树的末端开始向树的根部回退。

2. **在概率节点计算EMV**：
   - 当你到达一个概率节点（通常用圆圈表示），你需要计算每个可能结果的预期货币价值（EMV）。这可以通过以下公式计算：
     $$
     EMV = \sum_{i} V_i P_i
     $$
     其中，$V_i$ 是第 $i$ 个结果的价值，$P_i$ 是该结果发生的概率。

3. **在决策节点比较EMV**：
   - 当你到达一个决策节点（通常用正方形表示）时，你应该比较通过不同路径所得到的EMV。
   - 选择具有最高EMV值的路径。这代表了在当前信息下，最有利的决策。

### 回折过程的应用

- 这种方法在金融、商业、工程等领域的决策分析中非常有用。它可以帮助决策者在不确定性较高的情况下做出更加理性的选择。

### 示例

假设在一个决策树的末端，有两个概率节点分别对应着两种不同的市场情况：“上涨”和“下跌”，它们的概率分别为0.6和0.4，相应的收益分别为$100和$-50。那么在这个概率节点的EMV计算将是：

$$
EMV = (0.6 \times 100) + (0.4 \times -50) = 60 - 20 = 40
$$

如果另一个选择的EMV是30，那么在这个决策节点，我们将选择EMV为40的方案，因为它提供了更高的预期收益。

通过如此方式，从决策树的最右侧开始，一步步向左回折，最终可以在树的根部得到最优的决策方案。这个过程确保了在每个决策节点上，都是基于当前可用信息做出了最好的选择。

# 评估Classifier有效性：ROC和AUC

在评估分类器的有效性时，接收者操作特征曲线（ROC）和曲线下面积（AUC）是两个非常重要的指标。它们帮助我们了解分类器在不同的阈值设置下的表现如何。以下是对ROC和AUC的详细解释。

### ROC（接收者操作特征曲线）

- **定义**：ROC是一种图形化展示分类器性能的方法，它通过比较真正例率（TPR）和假正例率（FPR）在不同阈值下的表现来绘制。

- **Y轴（纵轴）**：真正例率（TPR），定义为正确识别的正例数占实际正例总数的比率。用公式表示为：

  $TPR = \frac{TP}{TP + FN}$

  其中，$TP$ 是真正例的数量，$FN$ 是假负例的数量。

- **X轴（横轴）**：假正例率（FPR），定义为错误识别的负例数占实际负例总数的比率。用公式表示为：

  $FPR = \frac{FP}{FP + TN}$

  其中，$FP$ 是假正例的数量，$TN$ 是真负例的数量。


### AUC（曲线下面积）

- **定义**：AUC指的是ROC曲线下的整个二维区域面积，从点（0,0）到点（1,1）。它提供了一个整体的性能度量，覆盖了所有可能的分类阈值。

- **解释**：
  - AUC值越接近于1，表示模型在区分正类和负类上做得越好。AUC为1.0意味着模型的预测完全正确。
  - AUC值越接近于0，表示模型的预测效果越差，AUC为0.0意味着模型的预测完全错误。
  - AUC值在0到1之间，可以表示模型区分正负类的能力程度。AUC值越高，模型的区分能力越强。

### 如何使用ROC和AUC

- 在实际应用中，通过计算不同阈值下的TPR和FPR，可以绘制出ROC曲线。然后计算曲线下的面积（AUC），以此来评估模型的整体表现。
- ROC和AUC对于比较不同模型或同一模型在不同参数设置下的性能非常有用，尤其是在数据集不平衡的情况下。

通过ROC和AUC，我们可以得到一个关于模型在分类任务上性能的直观和量化的理解。一个高AUC值的模型能够很好地区分不同类别，而ROC曲线提供了在各种阈值下模型性能的详细视图。