# Stress Test性能测试
- 千帆 Python SDK 提供了基于locust工具的对大模型服务进行快速压测以及性能评估的功能。该功能入口在Dataset对象的stress_test方法中。

- 本文提供了一个使用stress_test进行压测的示例，通过本文，您可以快速上手我们的压测工具。

- 由于Locust中使用了gevent库来保证高并发性能，而gevent的高并发依赖于monkey patching的非阻塞I/O机制，但该机制在Notebook环境中默认未开启。因此，在开始测试前，需要进行monkey patching操作。这样做是为了确保整个环境，包括IPython/Jupyter自己的组件，都使用gevent兼容的非阻塞版本，从而避免因混合使用阻塞和非阻塞操作导致的不一致性和潜在的死锁问题。

In [1]:
from gevent import monkey
monkey.patch_all()

开始压测：

In [2]:
import os

# 开启压测服务
os.environ['QIANFAN_ENABLE_STRESS_TEST'] = "true"

from qianfan.dataset import Dataset

# 请在此处填写您的ak、sk
os.environ["QIANFAN_ACCESS_KEY"] = "..."
os.environ["QIANFAN_SECRET_KEY"] = "..."

# 需要初始化一个数据集对象
ds = Dataset.load(data_file="/data_file/stress_test.jsonl")

ds.stress_test(
    users=1,
    workers=1,
    spawn_rate=128,
    model="ERNIE-Bot",
    model_type="ChatCompletion",
)

[INFO][2024-06-27 15:19:50.209] dataset.py:408 [t:4407381824]: no data source was provided, construct
[INFO][2024-06-27 15:19:50.222] dataset.py:276 [t:4407381824]: construct a file data source from path: /Users/jianruitian/Downloads/bce-qianfan-sdk-main/cookbook/stress/st.jsonl, with args: {}
[INFO][2024-06-27 15:19:50.238] file.py:293 [t:4407381824]: use format type FormatType.Jsonl
[INFO][2024-06-27 15:19:50.267] utils.py:349 [t:4407381824]: start to get memory_map from /Users/jianruitian/.qianfan_cache/dataset/Users/jianruitian/Downloads/bce-qianfan-sdk-main/cookbook/stress/st.arrow
[INFO][2024-06-27 15:19:50.289] utils.py:277 [t:4407381824]: has got a memory-mapped table
Type     Name                                                                          # reqs      # fails |    Avg     Min     Max    Med |   req/s  failures/s
--------|----------------------------------------------------------------------------|-------|-------------|-------|-------|-------|-------|--------|-----

以下是各参数的说明：

- **workers (int)**：指定发压使用的worker数目，每个worker为1个进程，默认为1个进程；
- **users (int)**：指定发压使用的总user数，必须大于worker数目；每个worker负责模拟${users}/${workers}个虚拟用户；
- **runtime (str)**：指定发压任务的最大运行时间，格式为带时间单位的字符串，例如（300s, 20m, 3h, 1h30m）；压测任务启动后会一直运行到数据集内所有数据都请求完毕，或到达该参数指定的最大运行时间；该参数默认值为'0s'，表示不设最大运行时间；
- **spawn_rate (int)**：指定每秒启动的user数目；
- **model (str)**：指定需要压测服务的模型名称。该参数与endpoint只能指定一个；
- **endpoint (str)**：指定需要压测服务的url路径。该参数与model只能指定一个；
- **model_type (str)**：指定被测服务的模型类型。 目前只支持'ChatCompletion'与'Completion两类'；默认值为'ChatCompletion'；
- **hyperparameters (Optional[Dict[str, Any]])**：指定压测时使用的超参数；

各项指标含义如下：

- **QPS**：服务每秒实际处理的请求数；
- **RPM**：每分钟实际处理的请求数；
- **Latency Avg/Min/Max/50%/80%**：全长时延的平均值/最小值/最大值/50分位值/80分位值；
- **FirstTokenLatency Avg/Min/Max/50%/80%**：首句时延的平均值/最小值/最大值/50分位值/80分位值；
- **InputTokens Avg**：单次请求输入的token长度平均值；
- **OutputTokens Avg**：单次请求输出的token长度平均值；
- **TotalQuery/SuccessQuery/FailureQuery**：总请求数/成功请求数/失败请求数；
- **TotalTime**：总运行时间；
- **SuccessRate**：请求成功率；

您也可以在当前路径下的record中查看相应的log文件。