# 算法简介

基于规则的分类器是**使用一组"if...then..."规则来对记录进行分类的技术。**


模型的规则用 $R =(r_1 ∨ r_2 ∨ ••• ∨ r_k)$表示

>n其中R称作规则集，$r_i$ 是分类规则。

每一个分类规则可以表示为如下形式：

>n$r_i:(条件i)→y_i$

规则右边称为**规则后件，包含预测类$y_i$。** 规则左边称为**规则前件或前提。**

它是**属性和属性值的合取**：$条件i=(A_1\, op \,\,  v_1)∧(A_2\,  op \,\,  v_2)∧•••∧(A_n \, op\,\,   v_n)$

其中$(A_j，v_j)$是属性-值对，op是比较运算符，取自集合${=，≠，﹤，﹥，≤，≥}$。

每一个属性和属性值$(A_j \, \, op\, \,  v_j)$称为一个合取项。

如果规则$r$的前件和记录$x$的属性匹配，则称**$r$覆盖$x$**。

当$r$覆盖给定的记录时，称**$r$被触发**。当所有规则中只有规则$r$被触发，则称**$r$被激活**。

分类规则的质量可以用**覆盖率（coverage）和准确率（accuracy）**来度量。

给定数据集D和分类规则 $r：A→y$，规则的覆盖率定义为**D中触发规则r的记录所占的比例。**

准确率或置信因子定义为**触发$r$的记录中类标号等于$y$的记录所占的比例。**

$Coverage(r)= |A| / |D|$

$Accuracy(r)= |A∩y| / |A|$

其中$|A|$是**满足规则前件的记录数**，$|A∩y|$是**同时满足规则前件和后件的记录数，D是记录总数。**

# 工作原理

### 基于规则的分类器所产生的规则集的两个重要性质：

>互斥规则：如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

>穷举规则：如果对属性值的任意组合，R中都存在一条规则加以覆盖，则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

**这两个性质共同作用，保证每一条记录被且仅被一条规则覆盖。**

如果规则集**不是穷举的**，那么必须添加一个默认规则 $r_d:() → y_d$来覆盖那些未被覆盖的记录。

默认规则的前件为空，当所有其他规则失效时触发。$y_d$是默认类，通常被指定为没有被现存规则覆盖的训练记录的多数类。



如果规则集**不是互斥的**，那么一条记录可能被多条规则覆盖，这些规则的预测可能会相互冲突，解决这个问题有如下两种方法：

>1、有序规则：规则集中的规则按照优先级降序排列，优先级的定义有多种方法（如基于准确率、覆盖率、总描述长度或规则产生的顺序等）。

>有序规则的规则集也称为决策表。当测试记录出现时，由覆盖记录的最高秩的规则对其进行分类，这就避免由多条分类规则来预测而产生的类冲突的问题。

>2、无序规则：允许一条测试记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号。

>通常把记录指派到得票最多的类。



本文重点讨论**使用有序规则的基于规则的分类器。**

# 如果被触发的多个规则指向不同的类

解决这个问题的核心思想，就是需要对不同规则进行优先级排序，取优先级高的规则所对应的类别作为元组的分类。 

两种解决方案： 


**规模序**：把最高优先级权赋予具有“最苛刻”要求的被触发的规则，其中苛刻性用规则前件的规模度量。也就是说，激活具有最多属性测试的被触发的规则。

**规则序**：指预先确定规则的优先次序。这种序的确定可以基于两种方法：基于类的序和基于规则的序 

# 规则的排序方案

对规则的排序可以逐条规则进行或者逐个类进行。

**基于规则质量的排序方案**：这个方案依据规则质量的某种度量对规则进行排序。这种排序方案确保每一个测试记录都是由覆盖它的“最好的”规则来分类。这种规则的质量可以是准确度、覆盖率或规模等。该方案的潜在缺点是**规则的秩（规则合取项的个数）越低越难解释，因为每个规则都假设所有排在它前面的规则不成立。**

**基于类标号的排序方案**：根据类的重要性来对规则进行排序。即最重要的类对应的规则先出现，次重要的类对应的规则紧接着出现，以此类推。对于类的重要性的衡量标准有很多，比如类的普遍性、误分类代价等。这使得规则的解释稍微容易一些。在这种方案中，属于同一个分类的规则在规则集R中一起出现。然后，这些规则根据它们所属的分类信息一起排序。同一个分类的规则之间的相对顺序并不重要，只要其中一个规则被激发，类标号就会赋给测试记录。然而，质量较差的规则可能碰巧预测较高秩的类，从而导致高质量的规则被忽略。

大部分基于规则的分类器（如CS4.5规则和RIPPER）都采用**基于类标号的排序方案。**

# 如何建立基于规则的分类器

为了建立基于规则的分类器，需要提取一组规则来识别数据集的属性和类标号之间的关键联系。提取分类规则的方法有两大类：

>（1）直接方法，直接从数据中提取分类规则；

>（2）间接方法，从其他分类模型（如决策树和神经网络）中提取分类规则。

直接方法把属性空间分为较小的子空间，以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。

间接方法使用分类规则为较复杂的分类模型提供简洁的描述。


# 规则提取的直接方法

顺序覆盖：算法经常被用来从直接数据中提取规则，规则基于某种评估度量以**贪心**的方式增长。

该算法从包含多个类的数据集中一次提取一个类的规则。决定哪一个类的规则最先产生的标准取决于多种因素，如类的普遍性（即训练记录中属于特定类的记录的比例），或者给定类中误分类记录的代价。