In [21]:
import numpy as np
import pandas as pd
from sklearn.tree import  DecisionTreeClassifier
from sklearn.preprocessing import  OrdinalEncoder

In [22]:
def create_data():
    record = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    tags = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    # 返回训练数据集和各特征的名称
    return np.array(record), tags

In [23]:
data, labels = create_data()
train_data = pd.DataFrame(data, columns=labels)
train_data

Unnamed: 0,年龄,有工作,有自己的房子,信贷情况,类别
0,青年,否,否,一般,否
1,青年,否,否,好,否
2,青年,是,否,好,是
3,青年,是,是,一般,是
4,青年,否,否,一般,否
5,中年,否,否,一般,否
6,中年,否,否,好,否
7,中年,是,是,好,是
8,中年,否,是,非常好,是
9,中年,否,是,非常好,是


In [24]:
enc = OrdinalEncoder()
enc.fit(data)

OrdinalEncoder(categories='auto', dtype=<class 'numpy.float64'>)

In [25]:
enc.categories_ # 每个特征包含的属性(有序)

[array(['中年', '老年', '青年'], dtype='<U3'),
 array(['否', '是'], dtype='<U3'),
 array(['否', '是'], dtype='<U3'),
 array(['一般', '好', '非常好'], dtype='<U3'),
 array(['否', '是'], dtype='<U3')]

In [26]:
trans_enc = enc.transform(data)
trans_enc

array([[2., 0., 0., 0., 0.],
       [2., 0., 0., 1., 0.],
       [2., 1., 0., 1., 1.],
       [2., 1., 1., 0., 1.],
       [2., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 1., 1., 1., 1.],
       [0., 0., 1., 2., 1.],
       [0., 0., 1., 2., 1.],
       [1., 0., 1., 2., 1.],
       [1., 0., 1., 1., 1.],
       [1., 1., 0., 1., 1.],
       [1., 1., 0., 2., 1.],
       [1., 0., 0., 0., 0.]])

In [27]:
clf = DecisionTreeClassifier()
clf.fit(trans_enc[:, :-1], trans_enc[:, -1])

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [33]:
predict_lst = [['老年', '否', '否', '一般']]
trans_predict_lst = enc.transform(predict_lst) # 按enc.categories_位置进行转换
trans_predict_lst

array([[1., 0., 0., 0.]])

In [34]:
result = clf.predict(trans_predict_lst).reshape(-1, 1)
result

array([[0.]])

In [35]:
sum_result = np.concatenate((trans_predict_lst, result), axis=1)
sum_result 

array([[1., 0., 0., 0., 0.]])

In [31]:
enc.inverse_transform(sum_result) # 将数据转换回原始表示形式(维度必须为2维,且有相同多的列)

array([['老年', '否', '否', '一般', '否']], dtype=object)