## PaddleHub
- PaddleHub是飞桨生态下的**预训练模型的管理工具**，旨在让飞桨生态下的开发者更便捷地享受到大规模预训练模型的价值。
- 用户可以通过**PaddleHub**便捷地获取飞桨生态下的预训练模型，结合**Fine-tune API**快速完成**迁移学习到应用部署**的全流程工作，让预训练模型能更好服务于用户特定场景的应用。
- 支持方向：文本，图像，视频，语音和工业应用等，为用户准备了大量高质量的预训练模型, 包括但不限于词法分析、情感分析、图像分类、图像分割、目标检测、关键点检测、视频分类等经典任务。支持的预训练模型可查看[PaddleHub官网](https://www.paddlepaddle.org.cn/hub)

### 前置条件
- 安装Python: Linux/Mac 3.5或3.5以上，Windows 3.6或3.6以上
- 安装飞桨2.2版本
- 安装PaddleHub 2.0或以上版本  
`$ pip install paddlenlp -U`  
`$ pip install paddlehub==2.1.0`

In [1]:
import paddlehub

  from collections import Iterable


In [2]:
# 使用PaddleHub下载数据集、预训练模型等，要求机器可以访问外网。
# 可以使用server_check()检查本地与远端PaddleHub-Server的连接状态
paddlehub.server_check()

[32m[2022-03-08 10:35:04,158] [    INFO][0m - Request Hub-Server successfully.[0m


True

### 下载预训练模型
- 在官网上选择模型，查看模型概述和所用的数据集，选择模型版本并下载模型  
    - `$ hub install chinese_ocr_db_crnn_server==1.1.2`  


### 使用命令行实现快速推理
- `$ hub run chinese_ocr_db_crnn_server --input_path "/PATH/TO/IMAGE"`

### 使用预训练模型进行迁移学习

In [None]:
# 1. 选择并加载预训练模型
import paddlehub as hub
model = hub.Model(name="ernie_tiny", 
                  version='2.0.1', 
                  task='seq_cls', # fine-tune任务，此处为seq_cls, 表示文本分类 
                  num_class=2) # 当前文本分类任务的类别数

In [3]:
# 2. 准备数据集并读取数据

In [4]:
# （1）选择PaddleHub提供的数据集ChnSentiCorp
# 自动从网络下载数据集并解压到用户目录下$HUB_HOME/.paddlehub/dataset目录
train_dataset = hub.datasets.ChnSentiCorp(
    tokenizer=model.get_tokenizer(), max_seq_len=128, mode='train')
dev_dataset = hub.datasets.ChnSentiCorp(
    tokenizer=model.get_tokenizer(), max_seq_len=128, mode='dev')

NameError: name 'hub' is not defined

In [1]:
# (2) 自定义数据集, 格式如下：
# ├──data: 数据目录
#    ├── train.txt: 训练集数据
#    ├── dev.txt: 验证集数据
#    └── test.txt: 测试集数据
# 编码格式建议为utf8格式。

In [None]:
# 加载自定义数据集。需要继承基类TextClassificationDataset
from paddlehub.datasets.base_nlp_dataset import TextClassificationDataset

class SeqClsDataset(TextClassificationDataset):
    # 数据集存放目录
    base_path = '/path/to/dataset'
    # 数据集的标签列表
    label_list=['体育', '科技', '社会', '娱乐', '股票', '房产', '教育', '时政', '财经', '星座', '游戏', '家居', '彩票', '时尚']
    
    def __init__(self, tokenizer, max_seq_len: int = 128, mode: str = 'train'):
        if mode == 'train':
            data_file = 'train.txt'
        elif mode == 'test':
            data_file = 'test.txt'
        else:
            data_file = 'dev.txt'
        super().__init__(
            base_path=self.base_path,
            tokenizer=tokenizer,
            max_seq_len=max_seq_len,
            mode=mode,
            data_file=data_file,
            label_list=self.label_list,
            is_file_with_header=True)

        
# 选择所需要的模型，获取对应的tokenizer
import paddlehub as hub
model = model = hub.Module(name='ernie_tiny', task='seq-cls', num_classes=len(SeqClsDataset.label_list))
tokenizer = model.get_tokenizer()

# 实例化训练集
train_dataset = SeqClsDataset(tokenizer)

In [None]:
# 定义optimizer和trainer
import paddle

optimizer = paddle.optimizer.Adam(learning_rate=5e-5, parameters=model.parameters())
trainer = hub.Trainer(model, optimizer, checkpoint_dir='test_ernie_text_cls', use_gpu=True)

trainer.train(train_dataset, epochs=3, batch_size=32, eval_dataset=dev_dataset, save_interval=1)

In [None]:
# 模型预测, 当完成Fine-tune后，Fine-tune过程在验证集上表现最优的模型会被保存在${CHECKPOINT_DIR}/best_model目录下

import paddlehub as hub

data = [
    ['这个宾馆比较陈旧了，特价的房间也很一般。总体来说一般'],
    ['怀着十分激动的心情放映，可是看着看着发现，在放映完毕后，出现一集米老鼠的动画片'],
    ['作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。'],
]
label_map = {0: 'negative', 1: 'positive'}

model = hub.Module(
    name='ernie_tiny',
    version='2.0.1',
    task='seq-cls',
    load_checkpoint='./test_ernie_text_cls/best_model/model.pdparams',
    label_map=label_map)

results = model.predict(data, max_seq_len=50, batch_size=1, use_gpu=False)

for idx, text in enumerate(data):
    print('Data: {} \t Lable: {}'.format(text[0], results[idx]))

### PaddleHub Serving一键服务部署工具
- PaddleHub Serving是基于PaddleHub的一键模型服务部署工具，能够通过简单的Hub命令行工具轻松启动一个模型预测在线服务，前端通过Flask和Gunicorn完成网络请求的处理，后端直接调用PaddleHub预测接口，同时支持使用多进程方式利用多核提高并发能力，保证预测服务的性能。

**启动服务端部署**
- 命令启动
```shell
hub serving start --modules Module1==Version1 Module2==Version2 ... \
              --port XXXX \
              --use_gpu \
              --use_multiprocess \
              --workers \
              --gpu \
```
- 配置文件启动
    - 启动命令：
        - `hub serving start --config config.json`
    - config.json格式如下
    ```json
    {
      "modules_info": {
        "yolov3_darknet53_coco2017": {
          "init_args": {
            "version": "1.0.0"
          },
          "predict_args": {
            "batch_size": 1,
            "use_gpu": false
          }
        },
        "lac": {
          "init_args": {
            "version": "1.1.0"
          },
          "predict_args": {
            "batch_size": 1,
            "use_gpu": false
          }
        }
      },
      "port": 8866,
      "use_multiprocess": false,
      "workers": 2,
      "gpu": "0,1,2"
    }
    ```

**访问服务端**
- 在使用PaddleHub Serving部署服务端的模型预测服务后，就可以在客户端访问预测接口以获取结果了，接口url格式为：
    - `http://127.0.0.1:8866/predict/<MODULE>`

In [None]:
# 客户端代码
# coding: utf8
import requests
import json

if __name__ == "__main__":
    # 指定用于预测的文本并生成字典{"text": [text_1, text_2, ... ]}
    text = ["今天是个好日子", "天气预报说今天要下雨"]
    # 以key的方式指定text传入预测方法的时的参数，此例中为"data"
    # 对应本地部署，则为lac.analysis_lexical(data=text, batch_size=1)
    data = {"texts": text, "batch_size": 1}
    # 指定预测方法为lac并发送post请求，content-type类型应指定json方式
    url = "http://127.0.0.1:8866/predict/lac"
    # 指定post请求的headers为application/json方式
    headers = {"Content-Type": "application/json"}

    r = requests.post(url=url, headers=headers, data=json.dumps(data))

    # 打印预测结果
    print(json.dumps(r.json(), indent=4, ensure_ascii=False))

**停止serving服务**
- `$ hub serving stop --port XXXX`