# 分类学习
## 决策树 Decision Tree

In [16]:
# 绘制Mermaid图表的工具，来自 https://gist.github.com/MLKrisJohnson/2d2df47879ee6afd3be9d6788241fe99
import base64
from IPython.display import Image, display

def mm_ink(graphbytes):
  """Given a bytes object holding a Mermaid-format graph, return a URL that will generate the image."""
  base64_bytes = base64.b64encode(graphbytes)
  base64_string = base64_bytes.decode("ascii")
  return "https://mermaid.ink/img/" + base64_string

def mm_display(graphbytes):
  """Given a bytes object holding a Mermaid-format graph, display it."""
  display(Image(url=mm_ink(graphbytes)))

def mm(graph):
  """Given a string containing a Mermaid-format graph, display it."""
  graphbytes = graph.encode("ascii")
  mm_display(graphbytes)

def mm_link(graph):
  """Given a string containing a Mermaid-format graph, return URL for display."""
  graphbytes = graph.encode("ascii")
  return mm_ink(graphbytes)
  
def mm_path(path):
  """Given a path to a file containing a Mermaid-format graph, display it"""
  with open(path, 'rb') as f:
    graphbytes = f.read()
  mm_display(graphbytes)

### 概要
决策树是主要用于分类和回归任务的数据结构，它由节点和连接这两部分组成。
 - 节点：每个节点都代表了一个数据标签
 - 连接：由父节点连接到子节点的标签特征。
我们下面会用一个简单的样例来解释决策树。

首先，我们需要一些数据，这些数据应该具备自己的数据标签和观察到的特征。这里我们以“学生是否通过考试”为案例，示例如下：
| 学习时长(StudyDuration:H/M/L) | 是否复习(Reviewed:Y/N) | 睡眠质量(SleepQuality:G/A(verage)/P(oor)) | 是否通过考试(Pass/Fail) |
|--------|--------|--------|-----------|
| 高     | 是    | 好     | 是        |
| 高     | 否    | 好     | 否        |
| 中     | 是    | 一般   | 是        |
| 低     | 否    | 差     | 否        |
| 低     | 是    | 好     | 否        |
| 低     | 是    | 一般   | 是        |
| 中     | 否    | 差     | 否        |
| 高     | 是    | 一般   | 是        |

随后，我们需要选取**特征**和**目标变量**。
 - 特征：特征指的是我们用来进行判断决策的指标，比如上表中的学习时长，是否复习等
 - 目标变量：目标变量指的是我们需要预测的指标，只能有一个，就是上表里的是否通过考试
接下来我们需要对这张数据表进行观察并构建一棵决策树。构建决策树时我们需要使用一些算法来确定应该以什么特征进行判断决策，但在这里先暂时忽略，就以最基础的直觉进行构建，如下：

In [17]:
mm("""
graph TD
    A[StudyDuration] -->|H| B1[Reviewed]
    A -->|M| B2[Reviewed]
    A -->|L| B3[Reviewed]
    B1 -->|Y| C1[SQ]
    B1 -->|N| C2[SQ]
    B2 -->|Y| C3[SQ]
    B2 -->|N| C4[SQ]
    B3 -->|Y| C5[SQ]
    B3 -->|N| C6[SQ]
    C1 -->|G| D1[Pass]
    C1 -->|A| D2[Pass]
    C1 -->|P| D3[Fail]
    C2 -->|G| D4[Fail]
    C2 -->|A| D5[Fail]
    C2 -->|P| D6[Fail]
    C3 -->|G| D7[Fail]
    C3 -->|A| D8[Pass]
    C3 -->|P| D9[Fail]
    C4 -->|G| D10[Fail]
    C4 -->|A| D11[Fail]
    C4 -->|P| D12[Fail]
    C5 -->|G| D13[Fail]
    C5 -->|A| D14[Pass]
    C5 -->|P| D15[Fail]
    C6 -->|G| D16[Fail]
    C6 -->|A| D17[Pass]
    C6 -->|P| D18[Fail]
""")

在这里，我们展示了一个纯粹直觉构建的决策树图表。当我们拿到一个新的数据，比如下表时，就可以根据上面构建的决策树进行预测。
| 学习时长 | 是否复习 | 睡眠质量 | 是否通过考试 |
|--------|--------|--------|-----------|
| 低     | 否    | 好     | ？        |

我们根据新的数据和决策树，首先判断学习时长，于是走L路线，然后判断是否复习，走H路线，随后判断睡眠质量，走G路线，最后得到的结果就直接是G边对应的叶子节点，也即Fail。于是我们就可以预测在这种情况下这位考生不能通过考试。

In [20]:
# @hidden_cell
mm("""
graph TD
    A[StudyDuration] -->|H| B1[Reviewed]
    A -->|M| B2[Reviewed]
    A -->|L| B3[Reviewed]
    B1 -->|Y| C1[SQ]
    B1 -->|N| C2[SQ]
    B2 -->|Y| C3[SQ]
    B2 -->|N| C4[SQ]
    B3 -->|Y| C5[SQ]
    B3 -->|N| C6[SQ]
    C1 -->|G| D1[Pass]
    C1 -->|A| D2[Pass]
    C1 -->|P| D3[Fail]
    C2 -->|G| D4[Fail]
    C2 -->|A| D5[Fail]
    C2 -->|P| D6[Fail]
    C3 -->|G| D7[Fail]
    C3 -->|A| D8[Pass]
    C3 -->|P| D9[Fail]
    C4 -->|G| D10[Fail]
    C4 -->|A| D11[Fail]
    C4 -->|P| D12[Fail]
    C5 -->|G| D13[Fail]
    C5 -->|A| D14[Pass]
    C5 -->|P| D15[Fail]
    C6 -->|G| D16[Fail]
    C6 -->|A| D17[Pass]
    C6 -->|P| D18[Fail]

    classDef red fill:#f66,stroke:#f66;
    class B3,C6,D16 red;
    linkStyle 2 stroke:#f66,stroke-width:2px;
    linkStyle 8 stroke:#f66,stroke-width:2px;
    linkStyle 24 stroke:#f66,stroke-width:2px;
""")