In [16]:
%reload_ext autoreload
%autoreload 2

! [ -L /datasets ] && rm -f /datasets
! ln -s /data/datasets/ /datasets

from k12libs.utils.nb_easy import k12ai_set_notebook

k12ai_set_notebook(cellw=95)

## 需掌握知识点

KNN, 决策树，随即森林，集成学习等算法原理介绍

In [9]:
%reset -f

import numpy as np
from pyr.app.k12ai import EasyaiClassifier, EasyaiTrainer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

class CustomClassifier(EasyaiClassifier):
    
    def prepare_dataset(self):
        """
        1. titanic:
            features:
                'Pclass':   船舱等级
                'Sex':      性别
                'Age':      年龄
                'SibSp':    兄弟姐妹一起上船 (可能相互让救生圈) 
                'Parch':    父母和小孩 (老人孩子优先)
                'Fare':     费用
                'Embarked': 上船的地方 (地位)
            
            target:
                'Survived': 存活 (目标对象) 1: 存活 0: 死亡
            
        eg: [(2.0, 'Pclass'), (1.0, 'Sex'), (22.0, 'Age'), (1.0, 'SibSp'), (1.0, 'Parch'), (29.0, 'Fare'), (0.0, 'Embarked')]
        """
        return self.load_titanic()
    
    def build_model(self):
        """
        DT:
        """
        return DecisionTreeClassifier( 
            criterion = 'gini',     # [M] 不纯度越低，决策树对训练集的拟合越好 1. entropy 2. gini
            splitter = 'best',      # [O] 特征划分点选择标准 1. best 2. random (适合大样本)
            max_depth = 10,         # [O] 决策树的最大深度
            max_features = None,    # [O] 划分的最大特征数 1. None 2. log2  3. sqrt 4. auto
        )
    
    def configure_estimator(self):
        return {
            'test_size': 0.3,       # [O] 数据样本分割比例
            'scaler_mode': 'zscore' # [O] 数据规范化模式 1. zscore: 采用Z-Score规范化 2. minmax: 采用Min-Max规范化
        }
    
    def fit_end(self, preds, trues):
        print('正确率:')
        print(accuracy_score(preds, trues))
        print('混淆矩阵:')
        print(confusion_matrix(preds, trues))

    def predict_end(self, preds):
        print('预测结果:')
        print(preds)
    
trainer = EasyaiTrainer(framework='ml') # [M] 必须指定为"ml"

model = CustomClassifier()

# 训练
trainer.fit(model)

# 预测
features = np.array([
    [2.0, 1.0, 22, 1.0, 1.0, 29.0, 0.0], # 存活
    [9.0, 0.0, 22, 0.0, 0.0, 9.0, 0.0],  # 死亡
])

trainer.predict(model, features=features)

正确率:
0.8283582089552238
混淆矩阵:
[[151  29]
 [ 17  71]]
预测结果:
[0 0]
