In [1]:
# 在机器学习中遇到的分类问题，特征不是连续的，比如国家有中国美国法国这些
# 所以我们需要对这些离散的特征进行数字化处理
# 但是并不能直接定义中国是0，美国是1
# 因为这两个类别之间是无序的，放进机器学习之中就成了有序的了
# 采用这个one-hot编码就是能够一一对应，任意时候只有一个有效
# 比如中国是001，美国是010，法国是100，反正每一个特征对应一位
# 特征取值没有大小意义

In [2]:
import pandas as pd
df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'], 
            ['red', 'L', 13.5, 'class2'], 
            ['blue', 'XL', 15.3, 'class1']])
# 这个就是有四个特征
 
df.columns = ['color', 'size', 'prize', 'class label']
 
size_mapping = {
           'XL': 3,
           'L': 2,
           'M': 1}
df['size'] = df['size'].map(size_mapping)
#  将这个尺码转化成连续数字是可以的，因为特征取值有大小意义
class_mapping = {label:idx for idx,label in enumerate(set(df['class label']))}
df['class label'] = df['class label'].map(class_mapping)

In [3]:


from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
# 用sklearn实现onehot编码
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])    # fit来学习编码
# 四个数据，三个特征维度
enc.transform([[0, 1, 3]]).toarray()    # 进行编码
# 用一个这个数据来进行测试，查看这个数据的编码是多少
# 第一列特征只有0和1两种取值，0先初夏，所以是10，这个编码先出现的是在最高位
# 第二列有三种取值，所以1编码方式是010
# 第三列加上这个测试的一共四种取值，所以这个3是0001



In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 0., 1., 0., 0., 0., 0., 1.]])

In [4]:
# 当类别数量很多的时候，特征空间会非常大，这种时候一般会加个PCA来降维