[pycaret](https://pycaret.org/guide/)

In [4]:
from pycaret.classification import *

from pycaret.datasets import get_data

ModuleNotFoundError: No module named 'pycaret'

# Data

In [None]:
diabetes = get_data('diabetes')
diabetes.head()

# Init
setup函数就建立了基础环境，其中参数约束了数据集和目标变量。    
setup参数除了上面这两个以外，还有N多个参数可以控制。   
所有预处理的步骤都会应用至 setup() 中，PyCaret 拥有 20 余项功能可运用于 ML 相关的数据准备，比如样本的划分、数据预处理，缺失值处理、独热编码、归一化、特征工程、特征选择等等。

In [None]:
clf1 = setup(data=diabetes, target='Class variable')
clf1 = setup(data=diabetes, target='Class variable', normalize=True)    #归一化

# Model
## Model Compare

In [None]:
# 比较所有模型
compare_models()

## using lr

In [None]:
# 创建逻辑回归模型
lr = create_model('lr')

## 模型调优

In [None]:
# 调节LR模型
tuned_lr = tune_model('lr')

## 模型集成
### 集成模型

In [None]:
# 创建一个决策树模型
dt = create_model('dt')
dt_bagged = ensemble_model(dt)

### blend模型

In [None]:
# blend_models混合特殊的模型
blender = blend_models(estimator_list=[dt, catboost, lightgbm])

### stack模型

In [None]:
# 创建单个模型， 用于stacking
ridge = create_model('ridge')
lda = create_model('lda')
gbc = create_model('gbc')
xgboost = create_model('xgboost')

# stacking模型
stacker = stack_models(estimator_list=[ridge, lda, gbc], meta_model=xgboost)

### 模型分析
模型分析主要可以做两个事情：一、模型绘制；二、模型解释。

In [None]:
# 创建逻辑回归模型
adaboost = create_model('adaboost')
plot_model(adaboost, plot='auc')    # AUC plot
plot_model(adaboost, plot='boundary')    # Decision Boundary
plot_model(adaboost, plot='pr')    # Precision Recall Curve
plot_model(adaboost, plot='vc')    # Validation Curve

### 模型解释

In [None]:
# 创建一个模型
xgboost = create_model('xgboost')
interpret_model(xgboost)    # Summary plot
interpret_model(xgboost, plot='correlation')   # correlation plot

In [None]:
interpret_model(xgboost, plot='reason', observation=0)

# 模型部署
模型调优后要将模型在测试集上进行测试，使用predict_model函数。

## 模型预测

In [None]:
# 创建模型
rf = create_model('rf')   
rf_holdout_pred = predict_model(rf)

## 模型完成

In [None]:
# finalize a model
final_rf = finalize_model(rf)

## 模型部署
该功能将pipeline和经过训练的模型保存为最终用户应用程序可以作为二进制pickle文件使用。或者，可以使用PyCaret将模型部署在云上。在云上部署模型就像编写deploy_model一样简单。

比如对于AWS用户来说，在将模型部署到AWS S3（'aws'）之前，必须使用命令行界面配置环境变量。要配置AWS环境变量，请在python命令行中输入aws configure。需要以下信息，可以使用亚马逊控制台帐户的身份和访问管理（IAM）门户生成。

AWS访问密钥ID
AWS访问密钥
默认区域名称（可以在您的AWS控制台的“全局设置”下看到）
默认输出格式（必须留空）

In [None]:
# 创建模型
lr = create_model('lr')

# 最终确定模型
final_lr = finalize_model(lr)

# 部署模型
deploy_model(final_lr, model_name='lr_aws', platform='aws', authentication={'bucket':'pycaret-test'})

## 模型保存

In [None]:
# 创建模型
adaboost = create_model('ada') 
# 二进制保存模型
save_model(adaboost, model_name = 'ada_for_deployment')

# Classification
## Data

In [None]:
from pycaret.datasets import get_data

dataset = get_data('credit')
dataset.head()

## Data Wrangling

In [None]:
# checke the shape of data
dataset.shape

In [None]:
data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)
data_unseen = dataset.drop(data.index).reset_index(drop=True)

print('Data for Modeling:' + str(data.shape))
print('Unseen Data for Prediction:' + str(data_unseen.shape))

## Setting up Environment in PyCaret

In [None]:
from pycaret.classification import *

In [None]:
exp_clf01 = setup(data=data, target='default', session_id=123)

## Comparing All Models

In [None]:
compare_models()

## Create a Model
### Decision Tree Classifier

In [None]:
dt = create_model('dt')

In [None]:
# trained model object is stored in the variable 'dt'.
print(dt)

### K Neighbor Classifier

In [None]:
knn = create_model('knn')

## Tune a Model
### Decision Tree Classifier

In [None]:
tuned_dt = tune_model('dt')

In [None]:
#tuned model object is stored in the variable 'tuned_dt'. 
print(tuned_dt)

In [None]:
print(dt)

### K Neighbors Classifier

In [None]:
tuned_knn = tune_model('knn')

### Random Forest Classifier

In [None]:
tuned_rf = tune_model('rf')

## Plot a Model

### AUC Plot

In [None]:
plot_model(tuned_rf, plot='auc')

### Precision-Recall Curve

In [None]:
plot_model(tuned_rf, plot='pr')

### Feature Importance Plot

In [None]:
plot_model(tuned_rf, plot='feature')

### Confusion Matrix

In [None]:
plot_model(tuned_rf, plot='confusion_matrix')

In [None]:
evaluate_model(tuned_rf)

## Predict on test/hold-out Sample

In [None]:
predict_model(tuned_rf)

## Finalize Model for Deployment

In [None]:
final_rf = finalize_model(tuned_rf)

#Final Random Forest model parameters for deployment
print(final_rf)

In [None]:
predict_model(final_rf)

## Predict on unseen data

In [None]:
unseen_predictions = predict_model(final_rf, data=data_unseen)
unseen_predictions.head()

## Saving the model

In [None]:
save_model(final_rf, 'Final RF Model 07Jul2020')

## Loading the saved model

In [None]:
saved_final_rf = load_model('Final RF Model 07Jul2020')

In [None]:
new_prediction = predict_model(saved_final_rf, data=data_unseen)

In [None]:
new_prediction.head()