【onnx模型】关于bge-reranker-v2-m3模型转onnx模型相关对比情况讨论

各位兄弟姐妹们。我这里将`bge-reranker-v2-m3` 这个模型转换成了onnx模型，并进行了效率对比统计（**GPU-A800**）。发现onnx模型的推理效率较torch模型相差很多很多。具体对比见下图

![000](https://github.com/user-attachments/assets/32e4caaf-efca-4adf-a7a0-76cfe1cbca60)

从测试结果来看，onnx模型的模型推理耗时，比torch慢了 5.7 倍。
针对这个情况，大家有没有什么建议和想法呀。欢迎大家来讨论。

torch模型的详细推理耗时情况也可以见：
https://github.com/FlagOpen/FlagEmbedding/issues/969