In [1]:
# 对类别特征进行编码

# 分类变量的类别通常不是数字
# 例如，眼睛的颜色可以是“黑色”，“蓝色”，“棕色”等

# 因此，需要使用编码方法将这些非数字类别变为数字
#  简单地将一个整数（比如 1 到 k ）分配给 k 个可能的类别中的每一个都是诱人的
#  但是，由此产生的价值观可以互相授权，这在类别中不应该被允许


In [2]:
#  One-hot 编码

# 将类别特征进行表示一个最好的办法就是使用一组比特位来表达
# 每一位代表一个可能的类别
# 如果该变量不能一次成为多个类别，那么该组中只有一位可以是 1 

# 这被称为独热编码，它在 Scikit Learn 中实现
# [sklearn.preprocessing.OneHotEncoder]
# (http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

# 每个位都是一个特征， 因此是一个绝对的具有 k 个可能类别的变量被编码为长度为 k 的特征向量


In [3]:
# dummy编码

# 独热编码的问题是它允许 k 个自由度，其中变量本身只需要 k-1

#  虚拟编码通过仅使用表示中的 k-1 个特征来消除额外的自由度

# 虚拟编码 和 独热编码都是在 Pandas 中以 的形式实现的
# [pandas.get_dummies]
# (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)

# 使用虚拟编码进行建模的结果比单编码更易解释
# 这很容易在简单的线性回归问题中看到


In [4]:
# Effect编码

# 分类变量编码的另一种变体称为 Effect 编码
#  Effect 编码与虚拟编码非常相似，区别在于参考类别现在由所有 -1 的向量表示

# Effect编码与虚拟编码非常相似，但是在线性回归中更容易被拟合
# 查看[what is effect coding?]
# (https://stats.idre.ucla.edu))


In [5]:
# 处理大量的类别特征
# 面临的挑战是如何找到一个能够提高内存效率的优秀特征表示，并生成训练速度快的准确模型

# 互联网上的自动数据收集可以生成大量的分类变量
# 这在诸如定向广告和欺诈检测等应用中很常见

# 对于这种类别特征处理的方案有：
#     1. 对编码不做任何事情。 使用便宜的训练简单模型。 在许多机器上将独热编码引入线性模型（逻辑回归或线性支持向量机）
#     2. 压缩编码，有两种方式
#         a. 对特征进行哈希--在线性回归中特别常见
#         b. bin-counting--在线性回归中与树模型都常见


In [6]:
# 特征哈希

# 散列函数是一个确定性函数，它映射一个潜在的无界整数到有限整数范围 [1，m]
# 由于输入域可能大于输出范围，多个数字可能会映射到相同的输出, 这被称为 a 碰撞

#  统一的散列函数可确保大致相同数量的数字被映射到每个 m 箱

# 散列函数可以为任何可以用数字表示的对象构造（对于可以存储在计算机上的任何数据都是如此）：数字，字符串，复杂的结构等

![self](./../image/figure5-1.png)

In [7]:
# bin-counting

# Bin-counting 是机器学习中常见的重新发现之一
#    是一种特征工程技术，而不是一种建模或优化方法，所以没有关于该主题的研究论文

# bin-counting 的想法非常简单：不是使用分类变量作为特征，而是使用条件概率的目标在该价值下
#  换句话说，而不是编码的身份分类值，计算该值和该值之间的关联统计量我们希望预测的目标


In [None]:
# 总结

# Plain one-hot encoding
# 空间使用：O(n)
# 时间复杂度：O(nk)
# 优点:
#    * 容易实现
#    * 更高的精度
#    * 在线学习特别容易扩展
# 缺点
#    * 计算不足
#    * 如果类别增加则不能够使用
#    * 对线性模型以外的任何其他方法都不可行
#    * 对于大数据集需要分布式训练

# Feature hashing
# 空间使用：O(n)
# 时间复杂度：O(nm)
# 优点:
#    * 容易实现
#    * 容易训练
#    * 容易扩展到新类别
#    * 容易处理稀有类别
#    * 在线学习容易扩展
# 缺点
#    * 只能够使用线性或核模型
#    * 哈希编码很难解释
#    * 精度有争议

# Bin-counting
# 空间使用：O(n+k)
# 时间复杂度：O(n)
# 优点:
#    * 训练快
#    * 能够使用树模型
#    * 容易扩展到新列类别
#    * 容易处理稀有类别
#    * 可解释
# 缺点
#    * 需要利用历史信息
#    * 对于在线学习有困难
#    * 会有数据泄露


# 正如我们所看到的，没有任何方法是完美的
#  选择使用哪一个取决于所需的型号
# 线性模型比较便宜，因此可以进行训练处理非压缩表示，例如独热编码
# 基于树的模型，另一方面，需要反复搜索右侧分割的所有特征，并且是因此限于小型表示，如箱计数
# 功能哈希处于在这两个极端之间，但是由此产生的精确度有不同的报道
