# 类别特征处理

类别特征由于没有顺序也没有尺度，因此处理较为麻烦，但是在CTR等领域却是非常常见的特征。比如商品的类型，颜色，用户的职业，兴趣等等。类别变量编码方法中最常使用的就是One-Hot编码，接下来结合具体实例来介绍。

## One-Hot编码

In [3]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

one_feature = ['b', 'a', 'c', 'b']
label_encoder = LabelEncoder()
feature = label_encoder.fit_transform(one_feature)
onehot_encoder = OneHotEncoder(sparse_output=False)
onehot_encoder.fit_transform(feature.reshape(-1, 1))

array([[0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

## LabelBinarizer

In [2]:
from sklearn.preprocessing import LabelBinarizer
import numpy as np
feature = np.array(['b', 'a', 'c'])
LabelBinarizer().fit_transform(feature)

array([[0, 1, 0],
       [1, 0, 0],
       [0, 0, 1]])

## 虚拟编码Dummy Coding

In [4]:
import pandas as pd
one_feature = ['b', 'a', 'c']
pd.get_dummies(one_feature, prefix='test') # 设置前缀test

Unnamed: 0,test_a,test_b,test_c
0,False,True,False
1,True,False,False
2,False,False,True


In [5]:
one_feature = ['b', 'a', 'c']
pd.get_dummies(one_feature, prefix='test', drop_first=True) # 设置前缀test

Unnamed: 0,test_b,test_c
0,True,False
1,False,False
2,False,True


## 特征哈希

按照上述编码方式，如果某个特征具有100个类别值，那么经过编码后将产生100个或99个新特征，这极大地增加了特征维度和特征的稀疏度，同时还可能会出现内存不足的情况。sklearn中的FeatureHasher接口采用了hash的方法，将不同的值映射到用户指定长度的数组中，使得输出特征的维度是固定的，该方法占用内存少，效率高，可以在多类别变量值中使用，但是由于采用了Hash函数的方式，所以具有冲突的可能，即不同的类别值可能映射到同一个特征变量值中。

In [18]:
from sklearn.feature_extraction import FeatureHasher

h = FeatureHasher(n_features=5, input_type='string')
test_cat = np.array(['a','b','c','d','e','f','g','h','i','j','a','b']).reshape(-1, 1)
f = h.transform(test_cat).toarray()
f

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0., -1.,  0.,  0.,  0.],
       [ 0.,  0., -1.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.],
       [ 0.,  0.,  0.,  0.,  1.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0., -1.,  0.,  0.],
       [-1.,  0.,  0.,  0.,  0.],
       [ 0., -1.,  0.,  0.,  0.],
       [ 0., -1.,  0.,  0.,  0.],
       [ 1.,  0.,  0.,  0.,  0.],
       [ 0., -1.,  0.,  0.,  0.]])

# 序数特征处理

序数特征指的是有序但无尺度的特征。比如表示‘学历’的特征，'高中'、'本科'、'硕士'，这些特征彼此之间是有顺序关系的，但是特征本身无尺度，并且也可能不是数值类型。在实际应用中，一般是字符类型居多，为了将其转换成模型能处理的形式，通常需要先进行编码，比如LabelEncoding。如果序数特征本身就是数值类型变量，则可不进行该步骤。下面依次介绍序数特征相关的处理方式。

## Label Encoding

Label Encoding编码方式，该方式默认从0开始，按照变量字符顺序排序，例子如下：

In [20]:
from sklearn.preprocessing import LabelEncoder

x = ['a', 'b', 'a', 'c', 'b']

encoder = LabelEncoder()
x1 = encoder.fit_transform(x)
x1

array([0, 1, 0, 2, 1], dtype=int64)

In [21]:
import pandas as pd

x2 = pd.Series(x).astype('category')
x2.cat.codes.values

array([0, 1, 0, 2, 1], dtype=int8)

## 二值化

In [22]:
x = ['a', 'b', 'a', 'c', 'b']
x4 = pd.Series(x)
x4 = (x4 >= 'b').astype(int) #令大于等于'b'的都为1
x4.values

array([0, 1, 0, 1, 1])

# 连续特征处理

## 分箱离散化

In [23]:
import numpy as np

In [24]:
bins = np.linspace(-3, 3, 11)
bins

array([-3. , -2.4, -1.8, -1.2, -0.6,  0. ,  0.6,  1.2,  1.8,  2.4,  3. ])

In [29]:
x = np.array([-3.5, -1.2, -2.3, -0.6, 0, 1.2, 0.6, 2.4, 4.5])
which_bin = np.digitize(x, bins=bins)
which_bin

array([ 0,  4,  2,  5,  6,  7,  7, 10, 11], dtype=int64)