In [1]:
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

In [2]:
enc = OrdinalEncoder()
X = np.array([['Male', 1], ['Female', 3], ['Female', 2]])
X

array([['Male', '1'],
       ['Female', '3'],
       ['Female', '2']], dtype='<U6')

In [3]:
'''
X : array-like, shape [n_samples, n_features]
            The data to determine the categories of each feature.
'''
enc.fit(X) # X必须为2D数据(n_samples, n_features)

OrdinalEncoder()

In [4]:
# The categories of each feature determined during fitting (in order of the features in X and corresponding with the output of transform).
enc.categories_ # 每个特征的包含的属性(有序)

[array(['Female', 'Male'], dtype='<U6'), array(['1', '2', '3'], dtype='<U6')]

In [5]:
# 将类别解释为有序的(这通常是被不希望的)
enc.transform([['Female', '3'], ['Male', '1']])

array([[0., 2.],
       [1., 0.]])

In [6]:
enc.transform(X) # 输出为数字类型

array([[1., 0.],
       [0., 2.],
       [0., 1.]])

In [7]:
enc.inverse_transform([[1, 0],
                       [0, 1]]) # 将数据转换回原始表示形式(2维,且有相同多的列(特征))

array([['Male', '1'],
       ['Female', '2']], dtype=object)

In [8]:
visible_seq_init = np.array(['红', '白', '红'],
                            dtype=object).reshape(-1, 1) # 数据类型为object,否则会进行排序

enc = OrdinalEncoder(categories=[['红', '白']]) # ★★★★★使用参数明确指定categories,若数据类型为字符串,则必须指定X1的数据类型的object.
visible_seq = enc.fit_transform(visible_seq_init)
visible_seq

array([[0.],
       [1.],
       [0.]])

In [9]:
record = np.array([['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否']])

enc = OrdinalEncoder()
enc.fit(record)
enc.categories_

[array(['中年', '老年', '青年'], dtype='<U3'),
 array(['否', '是'], dtype='<U3'),
 array(['否', '是'], dtype='<U3'),
 array(['一般', '好', '非常好'], dtype='<U3'),
 array(['否', '是'], dtype='<U3')]

In [10]:
enc.transform(record)

array([[2., 0., 0., 0., 0.],
       [2., 0., 0., 1., 0.],
       [2., 1., 0., 1., 1.],
       [2., 1., 1., 0., 1.],
       [2., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 1., 1., 1., 1.],
       [0., 0., 1., 2., 1.],
       [0., 0., 1., 2., 1.],
       [1., 0., 1., 2., 1.],
       [1., 0., 1., 1., 1.],
       [1., 1., 0., 1., 1.],
       [1., 1., 0., 2., 1.],
       [1., 0., 0., 0., 0.]])

In [11]:
predict_lst = np.array([['老年', '否', '否', '一般', '是']])
enc.transform(predict_lst) # 按照enc.categories_顺序依次进行转换

array([[1., 0., 0., 0., 1.]])